Détection et classification non supervisées de relations sémantiques dans des articles scientifiques

Résumé : Dans cet article, nous abordons une tâche encore peu explorée, consistant à extraire automatiquement l'état de l'art d'un domaine scientifique à partir de l'analyse d'articles de ce domaine. Nous la ramenons à deux sous-tâches élémentaires : l'identification de concepts et la reconnaissance de relations entre ces concepts. Une extraction terminologique permet d'identifier les concepts candidats, qui sont ensuite alignés à des ressources externes. Dans un deuxième temps, nous cherchons à reconnaître et classifier automatiquement les relations sémantiques entre concepts de manière non-supervisée, en nous appuyant sur différentes techniques de clustering et de biclustering. Nous mettons en oeuvre ces deux étapes dans un corpus extrait de l'archive de l'ACL Anthology. Une analyse manuelle nous a permis de proposer une typologie des relations sémantiques, et de classifier un échantillon d'instances de relations. Les premières évaluations suggèrent l'intérêt du biclustering pour détecter de nouveaux types de relations dans le corpus. ABSTRACT Unsupervised Classification of Semantic Relations in Scientific Papers In this article, we tackle the yet unexplored task of automatically building the "state of the art" of a scientific domain from a corpus of research papers. This task is defined as a sequence of two basic steps : finding concepts and recognizing the relations between them. First, candidate concepts are identified using terminology extraction, and subsequently linked to external resources. Second, semantic relations between entities are categorized with different clustring and biclustering algorithms. Experiences were carried out on the ACL Anthology Corpus. Results are evaluated against a hand-crafted typology of semantic relations and manually categorized examples. The first results indicate that biclustering techniques may indeed be useful for detecting new types of relations. MOTS-CLÉS : analyse de la littérature scientifique, extraction de relations, clustering, biclustering.
Type de document :
Communication dans un congrès
JEP-TALN-RECITAL 2016, Jul 2016, Paris, France. 2, 2016, Actes de la conférence conjointe JEP-TALN-RECITAL 2016
Liste complète des métadonnées

Littérature citée [29 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01360400
Contributeur : Kata Gabor <>
Soumis le : lundi 5 septembre 2016 - 16:48:52
Dernière modification le : mardi 24 avril 2018 - 17:20:13
Document(s) archivé(s) le : mardi 6 décembre 2016 - 13:59:27

Fichier

T33.pdf
Fichiers éditeurs autorisés sur une archive ouverte

Identifiants

  • HAL Id : hal-01360400, version 1

Citation

Kata Gábor, Isabelle Tellier, Thierry Charnois, Haïfa Zargayouna, Davide Buscaldi. Détection et classification non supervisées de relations sémantiques dans des articles scientifiques. JEP-TALN-RECITAL 2016, Jul 2016, Paris, France. 2, 2016, Actes de la conférence conjointe JEP-TALN-RECITAL 2016. 〈hal-01360400〉

Partager

Métriques

Consultations de la notice

351

Téléchargements de fichiers

341