Terminology-based Text Embedding for Computing Document Similarities on Technical Content - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2019

Terminology-based Text Embedding for Computing Document Similarities on Technical Content

Hamid Mirisaee
  • Fonction : Auteur
  • PersonId : 1111020
Éric Gaussier
Cedric Lagnier
  • Fonction : Auteur
  • PersonId : 1111021
Agnes Guerraz
  • Fonction : Auteur
  • PersonId : 1111022

Résumé

Nous proposons dans cet article une nouvelle approche hybride de calcul de représentation de documents dans le but de calculer des similarités entre documents techniques. Dans un premier temps, nous utilisons une méthode de l'état de l'art basée sur le graphe des mots pour extraire des phrases-clés, afin de calculer un score pour chacune des phrases du document. Nous proposons deux approches pour calculer la représentation d'un document en utilisant ce classement des phrases. En utilisant des annotations d'experts du domaine, nous montrons que les méthodes proposées obtiennent de meilleurs résultats en terme de NDCG pouvant aller jusqu'à 27% d'amélioration.
Fichier principal
Vignette du fichier
2019.jeptalnrecital-tia.3.pdf (252.22 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03352371 , version 1 (23-09-2021)

Identifiants

  • HAL Id : hal-03352371 , version 1

Citer

Hamid Mirisaee, Éric Gaussier, Cedric Lagnier, Agnes Guerraz. Terminology-based Text Embedding for Computing Document Similarities on Technical Content. TIA-PFIA 2019 (atelier TALN-RECITAL ), 2019, Toulouse, France. ⟨hal-03352371⟩
59 Consultations
46 Téléchargements

Partager

Gmail Facebook X LinkedIn More