TopicRank : ordonnancement de sujets pour l'extraction automatique de termes-clés

Adrien Bougouin 1 Florian Boudin 1
1 TALN
LINA - Laboratoire d'Informatique de Nantes Atlantique
Résumé : Les termes-clés sont les mots ou les expressions polylexicales qui représentent le contenu principal d'un document. Ils sont utiles pour diverses applications telles que l'indexa-tion automatique ou le résumé automatique, mais ne sont cependant pas disponibles pour la plupart des documents. La quantité de ces documents étant de plus en plus importante, l'ex-traction manuelle des termes-clés n'est pas envisageable et la tâche d'extraction automatique de termes-clés suscite alors l'intérêt des chercheurs. Dans cet article nous présentons Topic-Rank, une méthode non supervisée à base de graphe pour l'extraction de termes-clés. Cette méthode groupe les termes-clés candidats en sujets, ordonne les sujets et extrait de chacun des meilleurs sujets le terme-clé candidat qui le représente le mieux. Les expériences réali-sées montrent une amélioration significative vis-à-vis de l'état de l'art des méthodes à base de graphe pour l'extraction non supervisée de termes-clés. ABSTRACT. Keyphrases are single or multi-word expressions that represent the main content of a document. As keyphrases are useful in many applications such as document indexing or text summarization, and also because the vast amount of data available nowadays cannot be manu-ally annotated, the task of automatically extracting keyphrases has attracted considerable atten-tion. In this article we present TopicRank, an unsupervised graph-based method for keyphrase extraction. This method clusters the keyphrase candidates into topics, ranks these topics and extracts the most representative candidate for each of the best topics. Our experiments show a significant improvement over the state-of-the-art graph-based methods for keyphrase extraction.
Document type :
Journal articles
Liste complète des métadonnées

Cited literature [29 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-01096913
Contributor : Florian Boudin <>
Submitted on : Thursday, December 18, 2014 - 2:32:44 PM
Last modification on : Thursday, April 5, 2018 - 10:37:00 AM
Document(s) archivé(s) le : Monday, March 23, 2015 - 4:44:10 PM

File

2._Bougoin-TAL55-1.pdf
Publisher files allowed on an open archive

Identifiers

  • HAL Id : hal-01096913, version 1

Collections

Citation

Adrien Bougouin, Florian Boudin. TopicRank : ordonnancement de sujets pour l'extraction automatique de termes-clés. Traitement Automatique des Langues, ATALA, 2014, pp.45-69. ⟨http://www.atala.org/IMG/pdf/2._Bougoin-TAL55-1.pdf⟩. ⟨hal-01096913⟩

Share

Metrics

Record views

175

Files downloads

174