Analyse d'une tâche de substitution lexicale : quelles sont les sources de difficulté ? - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2016

Difficulty analysis for a lexical substitution task

Analyse d'une tâche de substitution lexicale : quelles sont les sources de difficulté ?

Résumé

This paper provides an analysis of the results of the SemDis 2014 evaluation campaign dedicated to a lexical substitution task in French. A gold standard has been established consisting of a dataset of 300 sentences, each of them associated with a list of substitutes that annotators proposed for a given target word. Our aim is to identify the main characteristics of this dataset that have an impact on human annotation and on the performance of the systems that have participated in the campaign. Our evaluation is based on the inter-annotator agreement scores and on the recall of the systems. We show that while several characteristics are found to have an impact on both aspects (level of rarity of the target word sense, frequency of the word), some are specific to the systems (degree of polysemy of the target word and characteristics pertaining to the sentence context).
Nous proposons dans cet article une analyse des résultats de la campagne SemDis 2014 qui proposait une tâche de substitution lexicale en français. Pour les 300 phrases du jeu de test, des annotateurs ont proposé des substituts à un mot cible, permettant ainsi d'établir un gold standard sur lequel les systèmes participants ont été évalués. Nous cherchons à identifier les principales caractéristiques des items du jeu de test qui peuvent expliquer les variations de performance pour les humains comme pour les systèmes, en nous basant sur l'accord inter-annotateurs des premiers et les scores de rappel des seconds. Nous montrons que si plusieurs caractéristiques communes sont associées aux deux types de difficulté (rareté du sens dans lequel le mot-cible est employé, fréquence d'emploi du mot-cible), d'autres sont spécifiques aux systèmes (degré de polysémie du mot-cible, complexité syntaxique).
Fichier principal
Vignette du fichier
final.pdf (163.41 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01362232 , version 1 (08-09-2016)

Identifiants

  • HAL Id : hal-01362232 , version 1

Citer

Ludovic Tanguy, Cécile Fabre, Camille Mercier. Analyse d'une tâche de substitution lexicale : quelles sont les sources de difficulté ?. TALN, Jul 2016, Paris, France. ⟨hal-01362232⟩
190 Consultations
333 Téléchargements

Partager

Gmail Facebook X LinkedIn More