Étiquetage thématique automatisé de corpus par représentation sémantique

Résumé : Dans les corpus de textes scientifiques, certains articles issus de communautés de chercheurs différentes peuvent ne pas être décrits par les mêmes mots-clés alors qu'ils partagent la même thématique. Ce phénomène cause des problèmes dans la recherche d'information, ces articles étant mal indexés, et limite les échanges potentiellement fructueux entre disciplines scientifiques. Notre modèle permet d'attribuer automatiquement une étiquette thématique aux articles au moyen d'un apprentissage des représentations sémantiques d'articles du corpus déjà étiquetés. Passant bien à l'échelle, cette méthode a pu être testée sur une bibliothèque numérique d'articles scientifiques comportant des millions de documents. Nous utilisons un réseau sémantique de synonymes pour extraire davantage d'articles sémantiquement similaires et nous les fusionnons avec ceux obtenus par un modèle de classement thématique. Cette méthode combinée présente de meilleurs taux de rappel que les versions utilisant soit le réseau sémantique seul, soit la seule représentation sémantique des textes.
Type de document :
Communication dans un congrès
EGC 2018 - 18ème Conférence Internationale sur l'Extraction et la Gestion de Connaissances, Jan 2018, Paris-Nord, France. pp.1-6
Liste complète des métadonnées

Littérature citée [11 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01659639
Contributeur : Fabrice Muhlenbach <>
Soumis le : vendredi 8 décembre 2017 - 16:08:05
Dernière modification le : mardi 16 janvier 2018 - 15:30:37

Fichier

Martinel_et_al__Etiquetage-the...
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01659639, version 1

Collections

Citation

Lucie Martinet, Hussein Al-Natsheh, Fabien Rico, Fabrice Muhlenbach, Djamel Zighed. Étiquetage thématique automatisé de corpus par représentation sémantique. EGC 2018 - 18ème Conférence Internationale sur l'Extraction et la Gestion de Connaissances, Jan 2018, Paris-Nord, France. pp.1-6. 〈hal-01659639〉

Partager

Métriques

Consultations de la notice

100

Téléchargements de fichiers

23