Extraction et Complétion de Terminologies Multilingues

Valérie Hanoka 1
1 ALPAGE - Analyse Linguistique Profonde à Grande Echelle ; Large-scale deep linguistic processing
Inria Paris-Rocquencourt, UPD7 - Université Paris Diderot - Paris 7
Résumé : Les processus d’extraction terminologique automatique ont été jusqu’ici majoritairement conçus pour être appliqués à des corpus monolingues et dans des registres de langue uniformes. Cette thèse, réalisée dans le cadre d’une convention CIFRE, prolonge cet objectif pour une application à des données textuelles bruitées et issues de langues de plus en plus variées, pour l’extraction de « termes de terrain ». Ce travail s’inscrit dans le cadre de l’analyse de verbatim issus d’enquêtes internes au sein de multinationales traitées par l’entreprise Verbatim Analysis - VERA ; il consiste à élaborer une séquence de traitements pour l’extraction automatique de terminologies qui soit faiblement dépendante de la langue, du registre de langue ou du domaine. Suivant une réflexion fondée sur différents aspects de typologie linguistique appliquée à sept langues, nous proposons des prétraitements textuels préliminaires à l’entraînement de modèles. Ces derniers sont soit indispensables (segmentation en tokens), soit optionnels (amputation d’une partie de l’information morphologique). Sur l’ensemble des données ainsi produites, nous calculons des traits numériques (statistiques ou fréquentiels) pour l’entraînement des modèles statistiques de type CRF. Nous sélectionnons un ensemble de meilleurs modèles grâce à une évaluation automatisée, au moyen d’une métrique adaptée, des termes extraits par les modèles produits pour l’ensemble des cadres expérimentaux envisagés pour chaque langue. Nous réalisons alors une seconde série d’évaluations pour étudier l’exploitabilité de ces modèles pour d’autres langues que celles sur lesquelles ils ont été entraînés. Il ressort de ces expériences que cette méthode aboutit à une extraction de termes de terrain de qualité satisfaisante. Les meilleurs scores obtenus (pour une évaluation monolingue des modèles) se situent, pour la majorité des langues, au-dessus de l’iso-ligne de f-score 0, 9. Ces scores peuvent même être améliorés pour certaines langues grâce à l’application trans-lingue des meilleurs modèles d’autres langues ; il en ressort que notre approche constitue potentiellement un bon levier à des extractions terminologiques pour des langues ne disposant pas de leurs propres modèles. La seconde partie de notre travail présente nos travaux relatifs à la complétion automatique de terminologies structurées multilingues. Nous avons proposé et évalué deux algorithmes de complétion qui prennent en entrée un graphe de traduction multilingue (que nous construisons à partir de ressources libres) et une terminologie multilingue structurée. Ils proposent alors de nouveaux candidats termes pour cette dernière. Notre approche permet de compléter la terminologie structurée dans une langue qu’elle couvre déjà, mais également d’étendre sa couverture à de nou- velles langue. L’un de ces algorithmes est également appliqué au wordnet du français WOLF, ce qui en permet une amélioration importante de la couverture.
Type de document :
Thèse
Linguistique. Université Paris Diderot (Paris 7), 2015. Français
Liste complète des métadonnées

Littérature citée [321 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/tel-01257201
Contributeur : Valérie Hanoka <>
Soumis le : vendredi 15 janvier 2016 - 21:59:03
Dernière modification le : vendredi 4 janvier 2019 - 17:33:24

Identifiants

  • HAL Id : tel-01257201, version 1

Collections

Citation

Valérie Hanoka. Extraction et Complétion de Terminologies Multilingues. Linguistique. Université Paris Diderot (Paris 7), 2015. Français. 〈tel-01257201〉

Partager

Métriques

Consultations de la notice

255

Téléchargements de fichiers

748