TagSpider

TagSpider est un aspirateur de pages Web.

Il opère selon deux modes:

1) un mode batch par lancement sur la ligne de commande,

2) un mode interactif via une interface graphique Swing.

Les deux modes offrent les mêmes fonctionnalités.


Retour au tableau des prestations

 

Le mode interactif affiche la fenêtre suivante :

Il est donc possible :

1) pour la source :

- de définir un filtre sur la langue des documents. Les valeurs disponibles sont : Toutes (aucun filtre), Allemand, Anglais, Danois, Espagnol, Français, Italien, Néerlandais, Norvégien, Portugais, Suédois. Il est possible de spécifier des valeurs multiples, afin de permettre par exemple : Français ou Anglais.

- de donner les URLs des sites qui seront aspirés.

- un nombre maximum de pages HTML par site. La valeur par défaut est de 50.

- si l'on désire se limiter aux pages des sites, ou bien si l'on autorise un changement de site lors de l'aspiration.

- si l'on l'on désire se limiter aux pages HTML, ou bien si l'on veut aspirer tous les formats de fichier.

2) Pour la destination :

- de spécifier le répertoire dans lequel vont être écrites les pages aspirées.

- de convertir 'à la volée' les pages HTML en fichiers au format texte.

 

Pour connaître la syntaxe du mode batch, lancer le programme avec l'option "-help".