Étude de la reproductibilité des word embeddings : repérage des zones stables et instables dans le lexique - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2018

Reproducibility of word embeddings : identifying stable and unstable zones in the semantic space

Étude de la reproductibilité des word embeddings : repérage des zones stables et instables dans le lexique

Résumé

Distributional semantic models trained using neural networks techniques yield different models even when using the same parameters. We describe a series of experiments where we examine the instability of word embeddings both from a global and local perspective for several models trained with the same parameters. We measured the global variation for models trained on three different corpora. This variation is estimated to about 17% for the 25 nearest neighbours of a target word. We also identified and described local zones of stability and instability in the semantic space.
Les modèles vectoriels de sémantique distributionnelle (ou word embeddings), notamment ceux produits par les méthodes neuronales, posent des questions de reproductibilité et donnent des repré-sentations différentes à chaque utilisation, même sans modifier leurs paramètres. Nous présentons ici un ensemble d'expérimentations permettant de mesurer cette instabilité, à la fois globalement et localement. Globalement, nous avons mesuré le taux de variation du voisinage des mots sur trois corpus différents, qui est estimé autour de 17% pour les 25 plus proches voisins d'un mot. Localement, nous avons identifié et caractérisé certaines zones de l'espace sémantique qui montrent une relative stabilité, ainsi que des cas de grande instabilité
Fichier principal
Vignette du fichier
TALN-Final.pdf (288.98 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01793370 , version 1 (16-05-2018)

Identifiants

  • HAL Id : hal-01793370 , version 1

Citer

Bénédicte Pierrejean, Ludovic Tanguy. Étude de la reproductibilité des word embeddings : repérage des zones stables et instables dans le lexique. TALN, May 2018, Rennes, France. ⟨hal-01793370⟩
181 Consultations
406 Téléchargements

Partager

Gmail Facebook X LinkedIn More