Application de l’apprentissage à l’extraction de connaissances à partir de notices bibliographiques en génomique - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2006

Application de l’apprentissage à l’extraction de connaissances à partir de notices bibliographiques en génomique

Résumé

Notre objectif est l’annotation sémantique automatique du texte, c’est à dire l’explicitation formelle de son sens. Nous nous appuyons sur l’Extraction d’Information, dont l’objectif est d’extraire du texte un type précis d’information sous forme structurée à l’aide d’un ensemble de règles. Ces règles seront acquises à l’aide de techniques d’apprentissage artificiel. Nous nous sommes intéressés au domaine de la génomique, dont la littérature est particulièrement complexe à traiter automatiquement. De fait, les méthodes de l’état de l’art se basent sur une analyse profonde du texte et sur des règles d’extraction faisant usage d’attributs syntaxiques et sémantiques. Ces règles sont généralement conçues manuellement, et nous avons démontré qu’il était possible de les acquérir automatiquement à partir d’exemples annotées. Nous proposons une méthodologie où l’ontologie (le modèle formel du domaine) est au coeur du processus d’annotation, que ce soit pour l’annotation experte, l’annotation sémantique automatique, ou la définition de la représentation du texte pour l’apprentissage. Cette dernière est effectuée déclarativement, en explicitant une « surcouche lexicale » de l’ontologie liant le niveau conceptuel au niveau lexical. Cette approche est d’une grande généricité et permet de tester aisément de multiples représentations. Nous l’avons validée sur le problème de l’extraction des interactions géniques, qui correspond à une demande forte de la communauté biologique. Pour faciliter l’analyse profonde du texte, nous filtrons les documents non pertinents à l’aide de méthodes d’apprentissage exploitant une analyse superficielle du texte. Nos résultats sont de bonne qualité comparativement à d’autres approches.
Fichier non déposé

Dates et versions

tel-02823518 , version 1 (06-06-2020)

Identifiants

  • HAL Id : tel-02823518 , version 1
  • PRODINRA : 42377

Citer

Alain Pierre Manine. Application de l’apprentissage à l’extraction de connaissances à partir de notices bibliographiques en génomique. Mathématiques [math]. Université Paris Sud - Paris 11, 2006. Français. ⟨NNT : ⟩. ⟨tel-02823518⟩

Collections

INRA INRAE MATHNUM
22 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More