TopicRank : ordonnancement de sujets pour l'extraction automatique de termes-clés - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Revue TAL : traitement automatique des langues Année : 2014

TopicRank : ordonnancement de sujets pour l'extraction automatique de termes-clés

Résumé

Les termes-clés sont les mots ou les expressions polylexicales qui représentent le contenu principal d'un document. Ils sont utiles pour diverses applications telles que l'indexa-tion automatique ou le résumé automatique, mais ne sont cependant pas disponibles pour la plupart des documents. La quantité de ces documents étant de plus en plus importante, l'ex-traction manuelle des termes-clés n'est pas envisageable et la tâche d'extraction automatique de termes-clés suscite alors l'intérêt des chercheurs. Dans cet article nous présentons Topic-Rank, une méthode non supervisée à base de graphe pour l'extraction de termes-clés. Cette méthode groupe les termes-clés candidats en sujets, ordonne les sujets et extrait de chacun des meilleurs sujets le terme-clé candidat qui le représente le mieux. Les expériences réali-sées montrent une amélioration significative vis-à-vis de l'état de l'art des méthodes à base de graphe pour l'extraction non supervisée de termes-clés. ABSTRACT. Keyphrases are single or multi-word expressions that represent the main content of a document. As keyphrases are useful in many applications such as document indexing or text summarization, and also because the vast amount of data available nowadays cannot be manu-ally annotated, the task of automatically extracting keyphrases has attracted considerable atten-tion. In this article we present TopicRank, an unsupervised graph-based method for keyphrase extraction. This method clusters the keyphrase candidates into topics, ranks these topics and extracts the most representative candidate for each of the best topics. Our experiments show a significant improvement over the state-of-the-art graph-based methods for keyphrase extraction.
Fichier principal
Vignette du fichier
2._Bougoin-TAL55-1.pdf (233.58 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-01096913 , version 1 (18-12-2014)

Identifiants

  • HAL Id : hal-01096913 , version 1

Citer

Adrien Bougouin, Florian Boudin. TopicRank : ordonnancement de sujets pour l'extraction automatique de termes-clés. Revue TAL : traitement automatique des langues, 2014, pp.45-69. ⟨hal-01096913⟩
187 Consultations
151 Téléchargements

Partager

Gmail Facebook X LinkedIn More