Mesurer la similarité entre phrases grâce à Wikipédia en utilisant une indexation aléatoire

Résumé : Cet article présente une méthode pour mesurer la similarité sémantique entre phrases qui utilise Wikipé-dia comme unique ressource linguistique et qui est, de ce fait, utilisable pour un grand nombre de langues. Basée sur une représentation vectorielle, elle utilise une indexation aléatoire pour réduire la dimension des espaces manipulés. En outre, elle inclut une technique de calcul des vecteurs de termes qui corrige les défauts engendrés par l'utilisation d'un corpus aussi général que Wikipédia. Le système a été évalué sur les données de SemEval 2014 en anglais avec des résultats très encourageants, au-dessus du niveau moyen des systèmes en compétition. Il a également été testé sur un ensemble de paires de phrases en français, à partir de ressources que nous avons construites et qui seront mises à la libre disposition de la communauté scientifique. Abstract. Semantic similarity between sentences based on Wikipedia and Random Indexing. This paper proposes a semantic similarity measure for sentence comparison based on the exploitation of Wikipedia as the only language resource. Such similarity measure is therefore usable for a wide range of languages, basically those covered by Wikipedia. Random Indexing is used to cope with the great dimensionality and the spareness of the data vectorial representations. Furthermore, a statistical weight function is used to reduce the noise generated by the use of a multi domain corpus such as Wikipedia. This semantic similarity measure has been evaluated on SemEval 2014 dataset for English language leading to very promising results, basically above the average level of the competing systems that exploit Wikipédia in conjunction with other sources of semantic information. It has been also evaluated on a set of pairs of sentences in French that we have build specifically for the task, and made freely available for the research community.
Type de document :
Communication dans un congrès
TALN 2015, Jun 2015, Caen, France
Liste complète des métadonnées

Littérature citée [29 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01167929
Contributeur : Jeanne Villaneau <>
Soumis le : jeudi 25 juin 2015 - 08:46:13
Dernière modification le : mercredi 16 mai 2018 - 11:24:07
Document(s) archivé(s) le : vendredi 9 octobre 2015 - 17:24:16

Fichier

taln-final_v1.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01167929, version 1

Citation

Hai-Hieu Vu, Jeanne Villaneau, Farida Saïd, Pierre-François Marteau. Mesurer la similarité entre phrases grâce à Wikipédia en utilisant une indexation aléatoire. TALN 2015, Jun 2015, Caen, France. 〈hal-01167929〉

Partager

Métriques

Consultations de la notice

538

Téléchargements de fichiers

524