Étiquetage thématique automatisé de corpus par représentation sémantique - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2018

Étiquetage thématique automatisé de corpus par représentation sémantique

Résumé

In scientific text corpus, some articles from different research communities are not tagged by the same keywords even if they share the same topic. This causes issues in information retrieval systems using limited number of tag variations and thus, lower chances of interdisciplinary exploration. Our approach automatically assigns a topic tag to articles by learning a classifier for each topic based on the semantics representation of the title and the abstract of already tagged articles. The approach requires much less computation power than using topic modeling on millions of documents. In our proposed model, we use topic sysnomyns to retrieve more semantically similar articles and merge them to the articles obtained by the topic classifier. The experiments show higher recall against two variations of the model, one only uses the synonyms set, and another one only uses the semantic representation of the text.
Dans les corpus de textes scientifiques, certains articles issus de communautés de chercheurs différentes peuvent ne pas être décrits par les mêmes mots-clés alors qu'ils partagent la même thématique. Ce phénomène cause des problèmes dans la recherche d'information, ces articles étant mal indexés, et limite les échanges potentiellement fructueux entre disciplines scientifiques. Notre modèle permet d'attribuer automatiquement une étiquette thématique aux articles au moyen d'un apprentissage des représentations sémantiques d'articles du corpus déjà étiquetés. Passant bien à l'échelle, cette méthode a pu être testée sur une bibliothèque numérique d'articles scientifiques comportant des millions de documents. Nous utilisons un réseau sémantique de synonymes pour extraire davantage d'articles sémantiquement similaires et nous les fusionnons avec ceux obtenus par un modèle de classement thématique. Cette méthode combinée présente de meilleurs taux de rappel que les versions utilisant soit le réseau sémantique seul, soit la seule représentation sémantique des textes.
Fichier principal
Vignette du fichier
Martinel_et_al__Etiquetage-thematique-automatise__2018.pdf (141.52 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01659639 , version 1 (08-12-2017)

Identifiants

  • HAL Id : hal-01659639 , version 1

Citer

Lucie Martinet, Hussein T Al-Natsheh, Fabien Rico, Fabrice Muhlenbach, Djamel Abdelkader Zighed. Étiquetage thématique automatisé de corpus par représentation sémantique. EGC 2018 - 18ème Conférence Internationale sur l'Extraction et la Gestion de Connaissances, Jan 2018, Paris-Nord, France. pp.1-6. ⟨hal-01659639⟩
352 Consultations
313 Téléchargements

Partager

Gmail Facebook X LinkedIn More