Amélioration de la similarité sémantique vectorielle par méthodes non-supervisées

Résumé : Mesurer la similarité sémantique est à la base de nombreuses applications. Elle joue un rôle important dans divers domaines tels que la recherche d'information, la traduction automatique, l'extraction d'information ou la détection de plagiat. Dans cet article, nous proposons un système fondé sur le plongement de mots (word embedding). Ce système est destiné à mesurer la similarité sémantique entre des phrases en arabe. L'idée principale est d'exploiter la représentation des mots par des vecteurs dans un espace multidimensionnel, afin de faciliter leur analyse sémantique et syntaxique. Des pondérations dépendant de la fréquence inverse en documents et de l’étiquetage morpho-syntaxique sont appliquées sur les phrases examinées, afin d'améliorer l'identification des mots qui sont plus importants dans chaque phrase. La performance de notre système est confirmée par la corrélation de Pearson entre nos scores de similarité assignés et les jugements humains sur un corpus de référence de l'état de l'art sur des phrases en arabe.
Type de document :
Communication dans un congrès
24e conférence sur le Traitement Automatique des Langues Naturelles (TALN 2017), Jun 2017, Orléans, France. 〈http://taln2017.cnrs.fr/〉
Liste complète des métadonnées

Littérature citée [14 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01531886
Contributeur : Jérémy Ferrero <>
Soumis le : vendredi 2 juin 2017 - 09:39:39
Dernière modification le : jeudi 11 octobre 2018 - 08:48:03
Document(s) archivé(s) le : mercredi 13 décembre 2017 - 08:15:33

Fichier

TALN_2017_paper_52.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01531886, version 1

Collections

Citation

El Moatez Billah Nagoudi, Jérémy Ferrero, Didier Schwab. Amélioration de la similarité sémantique vectorielle par méthodes non-supervisées. 24e conférence sur le Traitement Automatique des Langues Naturelles (TALN 2017), Jun 2017, Orléans, France. 〈http://taln2017.cnrs.fr/〉. 〈hal-01531886〉

Partager

Métriques

Consultations de la notice

310

Téléchargements de fichiers

751