FreDist: Automatic construction of distributional thesauri for French

Abstract : In this article we present FreDist, a freely available software package for the automatic construction of distributional thesauri from text corpora, as well as an evaluation of various distributional similarity metrics for French. Following from the work of Lin (1998) and Curran (2004), we use a large corpus of journalistic text and implement different choices for the type of lexical context relation, the weight function, and the measure function needed to build a distributional thesaurus. Using the EuroWordNet and \wolf wordnet resources for French as gold-standard references for our evaluation, we obtain the novel result that combining bigram and syntactic dependency context relations results in higher quality distributional thesauri. In addition, we hope that our software package and a joint release of our best thesauri for French will be useful to the NLP community.
Type de document :
Communication dans un congrès
TALN - 18ème conférence sur le traitement automatique des langues naturelles, Jun 2011, Montpellier, France, France. pp.119--124, 2011
Liste complète des métadonnées

Littérature citée [6 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-00602004
Contributeur : Enrique Henestroza Anguiano <>
Soumis le : mardi 21 juin 2011 - 11:56:56
Dernière modification le : vendredi 4 janvier 2019 - 17:33:24
Document(s) archivé(s) le : jeudi 22 septembre 2011 - 02:22:54

Fichier

henestroza2011fredist.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00602004, version 1

Collections

Citation

Enrique Henestroza Anguiano, Pascal Denis. FreDist: Automatic construction of distributional thesauri for French. TALN - 18ème conférence sur le traitement automatique des langues naturelles, Jun 2011, Montpellier, France, France. pp.119--124, 2011. 〈hal-00602004〉

Partager

Métriques

Consultations de la notice

355

Téléchargements de fichiers

154