- détecteur de format
de fichier à partir du contenu.
- lecteur de
format de fichier (formats traités : Text, HTML, SGML,
XML)
- détecteur de langue (32 langues reconnues),
- aspirateur de
pages Web,
- segmenteur de textes
en phrases,
- segmenteur de phrases
en mots (tokenization),
- rattrapeur de mots
mal orthographiés,
- analyseur
morphologique traitant les mots simples et les mots composés,
- analyseur syntaxique
robuste (fondée sur un chunker du français),
- extracteur de
mots inconnus, pour les mots simples et/ou composés, avec des patrons
d'extraction paramétrables,
- indexeur de
documents,
- moteur de recherche
opérant sur l'indexeur,
- outils de fouille
de textes pour comparer des textes entre eux, les classer ou synthétiser
un document en termes saillants.
a) soit prendre la
forme d'une bibliothèque accessible via une API, afin d'intégrer le code dans
une application de gestion de connaissances (KM), de fouilles de textes
(textMining) ou autre.
b) soit constituer une
application clef en main avec une interface graphique HTML ou
SWING.
Le code est portable et peut actuellement fonctionner sur Windows et
Linux.
Une prestation
complémentaire peut être effectuée sur site ou dans nos locaux. Il s'agira par
exemple de développement de fonctionnalités manquantes, d'intégration, de
conseil ou de formation.