Comparabilité de corpus et fouille terminologique multilingue - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Revue TAL : traitement automatique des langues Année : 2006

Comparabilité de corpus et fouille terminologique multilingue

Résumé

Les principaux travaux en fouille textuelle privilégient communément la taille du corpus sur sa qualité. Ainsi dans le cadre de l'alignement lexical à partir de corpus comparables, les meilleurs résultats sont obtenus pour des corpus de grande taille (plusieurs millions de mots). Pour les domaines de spécialité, et pour de nombreuses paires de langues, il n'est pas possible de disposer de corpus textuels aussi volumineux. Dans le cadre de ce travail, nous soutenons l'hypothèse que la qualité des données textuelles peut non seulement suppléer à leur quantité mais garantit aussi celle des ressources lexicales extraites. En particulier, nous montrons l'intérêt de prendre en compte le type du discours lors de la constitution du corpus comparable pour obtenir des listes terminologiques de qualité.
Fichier principal
Vignette du fichier
TAL_2006.pdf (197.18 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-00474316 , version 1 (19-04-2010)

Identifiants

  • HAL Id : hal-00474316 , version 1

Citer

Emmanuel Morin, Béatrice Daille. Comparabilité de corpus et fouille terminologique multilingue. Revue TAL : traitement automatique des langues, 2006, 47 (1), pp.113-136. ⟨hal-00474316⟩
125 Consultations
193 Téléchargements

Partager

Gmail Facebook X LinkedIn More