Comparabilité de corpus et fouille terminologique multilingue

Emmanuel Morin; Béatrice Daille

Article Dans Une Revue Revue TAL : traitement automatique des langues Année : 2006

Comparabilité de corpus et fouille terminologique multilingue

(1) , (1)

Emmanuel Morin

Fonction : Auteur
PersonId : 3632
IdHAL : emmanuel-morin
ORCID : 0000-0001-8208-7039
IdRef : 14379373X

Laboratoire d'Informatique de Nantes Atlantique

Béatrice Daille

Fonction : Auteur
PersonId : 12900
IdHAL : beatrice-daille
ORCID : 0000-0001-9095-7372
IdRef : 060702435

Laboratoire d'Informatique de Nantes Atlantique

Résumé

Les principaux travaux en fouille textuelle privilégient communément la taille du corpus sur sa qualité. Ainsi dans le cadre de l'alignement lexical à partir de corpus comparables, les meilleurs résultats sont obtenus pour des corpus de grande taille (plusieurs millions de mots). Pour les domaines de spécialité, et pour de nombreuses paires de langues, il n'est pas possible de disposer de corpus textuels aussi volumineux. Dans le cadre de ce travail, nous soutenons l'hypothèse que la qualité des données textuelles peut non seulement suppléer à leur quantité mais garantit aussi celle des ressources lexicales extraites. En particulier, nous montrons l'intérêt de prendre en compte le type du discours lors de la constitution du corpus comparable pour obtenir des listes terminologiques de qualité.

Mots clés

corpus comparable type de discours alignement lexical termes complexes

Domaines

Informatique et langage [cs.CL]

Fichier principal

TAL_2006.pdf (197.18 Ko)

Origine : Fichiers éditeurs autorisés sur une archive ouverte

Emmanuel Morin : Connectez-vous pour contacter le contributeur

https://hal.science/hal-00474316

Soumis le : lundi 19 avril 2010-16:10:13

Dernière modification le : vendredi 5 janvier 2024-03:25:17

Archivage à long terme le : mardi 28 septembre 2010-12:03:35

Dates et versions

hal-00474316 , version 1 (19-04-2010)

Identifiants

HAL Id : hal-00474316 , version 1

Citer

Emmanuel Morin, Béatrice Daille. Comparabilité de corpus et fouille terminologique multilingue. Revue TAL : traitement automatique des langues, 2006, 47 (1), pp.113-136. ⟨hal-00474316⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-NANTES CNRS LINA LINA-TALN LS2N NANTES-UNIVERSITE

125 Consultations

193 Téléchargements

Comparabilité de corpus et fouille terminologique multilingue

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager