Terminology-based Text Embedding for Computing Document Similarities on Technical Content

Hamid Mirisaee; Éric Gaussier; Cedric Lagnier; Agnes Guerraz

Communication Dans Un Congrès Année : 2019

Terminology-based Text Embedding for Computing Document Similarities on Technical Content

(1) , (2) , (1) , (1)

1
2

Hamid Mirisaee

Fonction : Auteur
PersonId : 1111020

Skopai

Éric Gaussier

Fonction : Auteur
PersonId : 182833
IdHAL : eric-gaussier
ORCID : 0000-0002-8858-3233
IdRef : 074308297

Laboratoire d'Informatique de Grenoble

Cedric Lagnier

Fonction : Auteur
PersonId : 1111021

Skopai

Agnes Guerraz

Fonction : Auteur
PersonId : 1111022

Skopai

Résumé

Nous proposons dans cet article une nouvelle approche hybride de calcul de représentation de documents dans le but de calculer des similarités entre documents techniques. Dans un premier temps, nous utilisons une méthode de l'état de l'art basée sur le graphe des mots pour extraire des phrases-clés, afin de calculer un score pour chacune des phrases du document. Nous proposons deux approches pour calculer la représentation d'un document en utilisant ce classement des phrases. En utilisant des annotations d'experts du domaine, nous montrons que les méthodes proposées obtiennent de meilleurs résultats en terme de NDCG pouvant aller jusqu'à 27% d'amélioration.

Mots clés

document similarity keyphrase Document embedding

Représentation de document similarité entre documents k-core phrases-clés

Domaines

Apprentissage [cs.LG]

Fichier principal

2019.jeptalnrecital-tia.3.pdf (252.22 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Eric Gaussier : Connectez-vous pour contacter le contributeur

https://hal.science/hal-03352371

Soumis le : jeudi 23 septembre 2021-10:30:56

Dernière modification le : jeudi 4 avril 2024-21:41:09

Archivage à long terme le : vendredi 24 décembre 2021-18:23:24

Dates et versions

hal-03352371 , version 1 (23-09-2021)

Identifiants

HAL Id : hal-03352371 , version 1

Citer

Hamid Mirisaee, Éric Gaussier, Cedric Lagnier, Agnes Guerraz. Terminology-based Text Embedding for Computing Document Similarities on Technical Content. TIA-PFIA 2019 (atelier TALN-RECITAL ), 2019, Toulouse, France. ⟨hal-03352371⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UGA CNRS LIG MIAI ANR LIG_SIDCH

59 Consultations

46 Téléchargements

Terminology-based Text Embedding for Computing Document Similarities on Technical Content

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager