TopicRank : ordonnancement de sujets pour l'extraction automatique de termes-clés

Adrien Bougouin 1 Florian Boudin 1
1 TALN
LINA - Laboratoire d'Informatique de Nantes Atlantique
Résumé : Les termes-clés sont les mots ou les expressions polylexicales qui représentent le contenu principal d'un document. Ils sont utiles pour diverses applications telles que l'indexa-tion automatique ou le résumé automatique, mais ne sont cependant pas disponibles pour la plupart des documents. La quantité de ces documents étant de plus en plus importante, l'ex-traction manuelle des termes-clés n'est pas envisageable et la tâche d'extraction automatique de termes-clés suscite alors l'intérêt des chercheurs. Dans cet article nous présentons Topic-Rank, une méthode non supervisée à base de graphe pour l'extraction de termes-clés. Cette méthode groupe les termes-clés candidats en sujets, ordonne les sujets et extrait de chacun des meilleurs sujets le terme-clé candidat qui le représente le mieux. Les expériences réali-sées montrent une amélioration significative vis-à-vis de l'état de l'art des méthodes à base de graphe pour l'extraction non supervisée de termes-clés. ABSTRACT. Keyphrases are single or multi-word expressions that represent the main content of a document. As keyphrases are useful in many applications such as document indexing or text summarization, and also because the vast amount of data available nowadays cannot be manu-ally annotated, the task of automatically extracting keyphrases has attracted considerable atten-tion. In this article we present TopicRank, an unsupervised graph-based method for keyphrase extraction. This method clusters the keyphrase candidates into topics, ranks these topics and extracts the most representative candidate for each of the best topics. Our experiments show a significant improvement over the state-of-the-art graph-based methods for keyphrase extraction.
Type de document :
Article dans une revue
Traitement Automatique des Langues, ATALA, 2014, pp.45-69. 〈http://www.atala.org/IMG/pdf/2._Bougoin-TAL55-1.pdf〉
Liste complète des métadonnées

Littérature citée [29 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01096913
Contributeur : Florian Boudin <>
Soumis le : jeudi 18 décembre 2014 - 14:32:44
Dernière modification le : jeudi 5 avril 2018 - 10:37:00
Document(s) archivé(s) le : lundi 23 mars 2015 - 16:44:10

Fichier

2._Bougoin-TAL55-1.pdf
Fichiers éditeurs autorisés sur une archive ouverte

Identifiants

  • HAL Id : hal-01096913, version 1

Collections

Citation

Adrien Bougouin, Florian Boudin. TopicRank : ordonnancement de sujets pour l'extraction automatique de termes-clés. Traitement Automatique des Langues, ATALA, 2014, pp.45-69. 〈http://www.atala.org/IMG/pdf/2._Bougoin-TAL55-1.pdf〉. 〈hal-01096913〉

Partager

Métriques

Consultations de la notice

169

Téléchargements de fichiers

167