Fouille de textes : des méthodes symboliques pour la construction d'ontologies et l'annotation sémantique guidée par les connaissances - Archive ouverte HAL Accéder directement au contenu
Hdr Année : 2011

Text Mining: Symbolic methods to build ontologies and to semantically annotate texts

Fouille de textes : des méthodes symboliques pour la construction d'ontologies et l'annotation sémantique guidée par les connaissances

Yannick Toussaint
  • Fonction : Auteur
  • PersonId : 832664

Résumé

Extracting knowledge from texts is highly contextual and depends on the domain and on the task. We show that information retrieval, Natural Language Processing, data mining and Knowledge representation are research domains that all contribute to improve knowledge extraction from texts. My research project aims at building a semantic continuum between texts and knowledge. I claim that symbolic and formal classification methods such as Formal Concept Analysis are very promissing for the conceptualization phase in building ontology, to support interaction with experts and to ensure a direct link between texts and knowledge and in return, between knowledge and texts. Moreover this symbolic classification tool could prove very powerful for building sysnthesis of complexe phenomena such as diseases descriptions.
Il n'existe pas d'outils clé en main pour extraire des connaissances de textes et le passage de la langue naturelle à des connaissances est très fortement contextualisé et dépendant de la tâche que l'on s'est fixée. Nous montrons que le défi d'extraction de connaissances à partir de textes reste aujourd'hui très vaste, avec de très nombreuses pistes de recherche que ce soit en lien avec des approche de type recherche d'information, traitement automatique des langues, fouille de données ou représentation des connaissances. Chacun de ces domaines de recherche recensent de nombreux sous-domaines tous très actifs. Le projet de recherche que je souhaite développer peut être vu comme un chemin au travers de ces domaines qui vise à créer un continuum (sémantique) entre les différentes étapes de la fouille de textes. L'extraction de connaissances à partir de textes est avant tout une construction de connaissances et suppose une cohérence méthodologique entre les différentes étapes de la fouille de textes. J'ai fait le choix d'ancrer mes travaux dans le domaine du formel en visant notamment une représentation des connaissances en logique, plus particulièrement en logique de descriptions. Malgré les restrictions liées à ce choix, notamment en ce qui concerne l'interaction avec des humains experts d'un domaine, la mise à jour, ou la correction d'une ontologie, une représentation formelle reste à mon sens la solution pour raisonner sur les textes et assurer la cohérence d'une ontologie. Si le but final d'un processus de fouille est de construire une représentation formelle qui puisse être le support de raisonnements, je me suis concentré dans ce projet de recherche sur la construction des connaissances en exploitant des méthodes à base de motifs, d'extraction de règles d'association ou de l'analyse formelle de concepts. L'intérêt de ces approches est qu'elles assureront un lien constant entre les textes et les connaissances. La modification des textes engendre une modification des connaissances et inversement la modification des connaissances (les ressources externes par exemple) modifient l'annotation des textes et l'ontologie. Des environnements coopératifs pourraient à terme intégrer nos travaux et faciliter ainsi la synergie entre les processus humains et les processus automatiques.
Fichier principal
Vignette du fichier
hdr5.pdf (16.94 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00764162 , version 1 (12-12-2012)

Identifiants

  • HAL Id : tel-00764162 , version 1

Citer

Yannick Toussaint. Fouille de textes : des méthodes symboliques pour la construction d'ontologies et l'annotation sémantique guidée par les connaissances. Traitement du texte et du document. Université Henri Poincaré - Nancy I, 2011. ⟨tel-00764162⟩
679 Consultations
3759 Téléchargements

Partager

Gmail Facebook X LinkedIn More