Etude et réalisation d'un système d'extraction de connaissances à partir de textes - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2004

Etude et réalisation d'un système d'extraction de connaissances à partir de textes

Résumé

This PhD dissertation relates to the problems of knowledge extraction from texts, or text mining (TM). It is applied to the text analysis, the datamining process itself, and the interpretation of the elements of knowledge extracted. A system of knowledge extraction necessary to analyse the texts according to their contents is studied. The methods of datamining used are: frequent itemset levelwise search and association rule extraction. The definition of the process of TM and its main characteristics is done. A study of a number of quality measures attached to the rules is carried out. It is shown how far these quality measures can help the interpretation of the extracted rules. The use of a knowledge model comes to support this approach. It is shown, by the definition of a likelihood probability measure, the significance to discover new knowledge by discarding knowledge already described in the domain model. The rules can be used to enrich the knowledge model of the selected domain. This dissertation includes the implementation of the TAMIS system: "Text Analysis by Mining Interesting ruleS" and an experiment on a real-world text corpus holding on molecular biology.
Ce travail porte sur la problématique d'extraction de connaissances à partir de textes ou fouille de textes (FdT). Il s'articule autour des problèmes liés à l'analyse des textes, la fouille de données et l'interprétation des connaissances extraites. Un système d'extraction des connaissances pour analyser les textes en fonction de leur contenu est étudié. Les méthodes de fouille de données appliquées sont la recherche de motifs fréquents et l'extraction de règles d'association. Le processus de FdT est défini ainsi que ses propriétés. Une étude d'un ensemble de mesures de qualité qu'il est possible d'attacher aux règles est menée. Il est montré quel rôle ces mesures peuvent avoir sur l'interprétation des règles extraites. L'utilisation d'un modèle de connaissances vient appuyer cette approche. Il est montré, par la définition d'une mesure de vraisemblance, l'intérêt de découvrir de nouvelles connaissances en écartant celles qui sont déjà décrites par un modèle du domaine. Les règles peuvent donc être utilisées pour alimenter ce modèle. La thèse inclut la réalisation du système TAMIS et une expérience sur des données réelles de textes en biologie moléculaire.
Fichier non déposé

Dates et versions

tel-01746763 , version 1 (29-03-2018)

Identifiants

  • HAL Id : tel-01746763 , version 1

Lien texte intégral

Citer

Hacène Cherfi. Etude et réalisation d'un système d'extraction de connaissances à partir de textes. Autre [cs.OH]. Université Henri Poincaré - Nancy 1, 2004. Français. ⟨NNT : 2004NAN10164⟩. ⟨tel-01746763⟩
24 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More