Compression de vocabulaire de sens grâce aux relations sémantiques pour la désambiguïsation lexicale - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2019

Sense Vocabulary Compression through Semantic Knowledge for Word Sense Disambiguation

Compression de vocabulaire de sens grâce aux relations sémantiques pour la désambiguïsation lexicale

Résumé

In Word Sense Disambiguation (WSD), supervised approaches are predominant in evaluation cam- paigns. The limited quantity of such corpora however restricts the coverage and the performance of these systems. In this article, we present two new methods that tackle this problem by exploiting the semantic relationships between senses such as synonymy, hypernymy and hyponymy, in order to compress the sense vocabulary of WordNet, and thus reduce the number of different sense tags that must be observed to disambiguate all words of the lexical database. Our methods greatly reduce the size of neural WSD models, with the benefit of improving their coverage without additional training data, and without impacting their precision. In addition to our methods, we present a neural WSD system which relies on the recent advances in contextualized word embeddings in order to achieve results that significantly outperform the state of the art on all WSD evaluation tasks.
En Désambiguïsation Lexicale (DL), les systèmes supervisés dominent largement les campagnes d'évaluation. La performance et la couverture de ces systèmes sont cependant rapidement limités par la faible quantité de corpus annotés en sens disponibles. Dans cet article, nous présentons deux nouvelles méthodes qui visent à résoudre ce problème en exploitant les relations sémantiques entre les sens tels que la synonymie, l'hyperonymie et l'hyponymie, afin de compresser le vocabulaire de sens de WordNet, et ainsi réduire le nombre d'étiquettes différentes nécessaires pour pouvoir désambiguïser tous les mots de la base lexicale. Nos méthodes permettent de réduire considérablement la taille des modèles de DL neuronaux, avec l'avantage d'améliorer leur couverture sans données supplémentaires, et sans impacter leur précision. En plus de nos méthodes, nous présentons un système de DL qui tire parti des récents travaux sur les représentations vectorielles de mots contextualisées, afin d'obtenir des résultats qui surpassent largement l'état de l'art sur toutes les tâches d'évaluation de la DL.
Fichier principal
Vignette du fichier
TALN_2019.pdf (337.89 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02127237 , version 1 (13-05-2019)
hal-02127237 , version 2 (07-07-2019)

Identifiants

  • HAL Id : hal-02127237 , version 2

Citer

Loïc Vial, Benjamin Lecouteux, Didier Schwab. Compression de vocabulaire de sens grâce aux relations sémantiques pour la désambiguïsation lexicale. TALN 2019 (Conférence sur le Traitement Automatique des Langues Naturelles), Jul 2019, Toulouse, France. ⟨hal-02127237v2⟩
200 Consultations
165 Téléchargements

Partager

Gmail Facebook X LinkedIn More