Annotation linguistique de documents Web dans une architecture distribuée et adaptable - Archive ouverte HAL Accéder directement au contenu
Autre Publication Scientifique Année : 2006

Annotation linguistique de documents Web dans une architecture distribuée et adaptable

Résumé

Dans le cadre du projet ALVIS (www.alvis.info/alvis), nous avons conçu une plate-forme d'enrichissement linguistique de documents issus du Web, exploitant des outils de Traitement Automatique des Langues (TAL) existants. Cette architecture est distribuée afin de répondre aux contraintes liées aux traitements de gros volumes de textes, et adaptable pour spécialiser l'analyse linguistique de ces textes. Une collection de 55 329 documents (soit plus 80 millions de mots) a pu être annotée en 3 jours. La plate-forme, développée en Perl et disponible sous forme de modules, peut être vu comme un cadre de travail modulaire dans lequel il est possible d'intégrer de nouveaux outils de TAL. Lors de l'exposé, nous présenterons la plate-forme, aussi bien du point de vue de sa conception que de son implémentation. Nous donnerons également un aperçu des performances obtenues.
Fichier non déposé

Dates et versions

hal-00158591 , version 1 (29-06-2007)

Identifiants

  • HAL Id : hal-00158591 , version 1

Citer

Julien Derivière, Thierry Hamon. Annotation linguistique de documents Web dans une architecture distribuée et adaptable. 2006. ⟨hal-00158591⟩
124 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More