Une infrastructure pour l'annotation linguistique de documents issus du web : le projet ALVIS
Résumé
Cet article présente une architecture logicielle permettant l'annotation automatique de documents issus du web. Cette architecture est fondée sur l'intégration de composants d'analyse linguistique. Cette plateforme présente une double originalité : elle peut être adaptée en fonction du domaine visé et elle permet d'analyser de manière robuste des collections de documents qui sont hétérogènes, ce qui est caractéristiques des collections construites à partir du web. Cet article prend comme exemple le cas de bases de données textuelles dans le domaine de la biologie. Nous montrons comment la plateforme Ogmios peut être adaptée à ce domaine et nous détaillons les performances obtenues dans l'analyse de larges collections de documents destinées à des moteurs spécialisés sur internet.