Fouille de données séquentielles pour l'extraction d'information dans les textes - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Revue TAL : traitement automatique des langues Année : 2009

Fouille de données séquentielles pour l'extraction d'information dans les textes

Résumé

Cet article montre l'intérêt d'utiliser les motifs issus des méthodes de fouille de données dans le domaine du TAL appliqué à la biologie médicale et génétique, et plus particulièrement dans les tâches d'extraction d'information. Nous proposons une approche pour apprendre les patrons linguistiques par une méthode de fouille de données fondée sur les motifs séquentiels et sur une fouille dite récursive des motifs eux-mêmes. Une originalité de notre approche est de s'affranchir de l'analyse syntaxique tout en permettant de produire des résultats symboliques, intelligibles pour l'utilisateur, a contrario des méthodes numériques qui restent difficilement interprétables. Elle ne nécessite pas de ressources linguistiques autres que le corpus d'apprentissage. Pour la reconnaissance d'entités biologiques nommées, nous proposons une méthode fondée sur un nouveau type de motifs intégrant une séquence et son contexte. This paper shows the benefit of using data mining methods for Biological Natural Language Processing. A method for discovering linguistic patterns based on a recursive sequential pattern mining is proposed. It does not require a sentence parsing nor other resource except a training data set. It produces understandable results and we show its interest in the extraction of relations between named entities. For the named entities recognition problem, we propose a method based on a new kind of patterns taking account the sequence and its context.
Fichier principal
Vignette du fichier
RIACL-CHARNOIS-2009-1.pdf (12.65 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01011618 , version 1 (17-07-2014)

Identifiants

  • HAL Id : hal-01011618 , version 1

Citer

Thierry Charnois, Marc Plantevit, Christophe Rigotti, Bruno Crémilleux. Fouille de données séquentielles pour l'extraction d'information dans les textes. Revue TAL : traitement automatique des langues, 2009, pp59-87. ⟨hal-01011618⟩
697 Consultations
288 Téléchargements

Partager

Gmail Facebook X LinkedIn More