Tagmatica - TagTools

TagTools - Les composants logiciels

TagTools comporte les éléments suivants :

- détecteur de format de fichier à partir du contenu.
- lecteur de format de fichier (formats traités : Text, HTML, SGML, XML)

- détecteur de langue (32 langues reconnues),

- aspirateur de pages Web,

- segmenteur de textes en phrases,

- segmenteur de phrases en mots (tokenization),

- rattrapeur de mots mal orthographiés,

- analyseur morphologique traitant les mots simples et les mots composés,

- analyseur syntaxique robuste (fondée sur un chunker du français),

- extracteur de mots inconnus, pour les mots simples et/ou composés, avec des patrons d'extraction paramétrables,

- indexeur de documents,

- moteur de recherche opérant sur l'indexeur,

- outils de fouille de textes pour comparer des textes entre eux, les classer ou synthétiser un document en termes saillants.

Le résultat du développement peut :

a) soit prendre la forme d'une bibliothèque accessible via une API, afin d'intégrer le code dans une application de gestion de connaissances (KM), de fouilles de textes (textMining) ou autre.

b) soit constituer une application clef en main avec une interface graphique HTML ou SWING.

Le code est portable et peut actuellement fonctionner sur Windows et Linux.

Une prestation complémentaire peut être effectuée sur site ou dans nos locaux. Il s'agira par exemple de développement de fonctionnalités manquantes, d'intégration, de conseil ou de formation.