Etude et réalisation d'un système d'extraction de connaissances à partir de textes

Hacène Cherfi

Thèse Année : 2004

Etude et réalisation d'un système d'extraction de connaissances à partir de textes

(1)

Hacène Cherfi

Fonction : Auteur
PersonId : 786985
IdRef : 083101853

Laboratoire Lorrain de Recherche en Informatique et ses Applications

Résumé

This PhD dissertation relates to the problems of knowledge extraction from texts, or text mining (TM). It is applied to the text analysis, the datamining process itself, and the interpretation of the elements of knowledge extracted. A system of knowledge extraction necessary to analyse the texts according to their contents is studied. The methods of datamining used are: frequent itemset levelwise search and association rule extraction. The definition of the process of TM and its main characteristics is done. A study of a number of quality measures attached to the rules is carried out. It is shown how far these quality measures can help the interpretation of the extracted rules. The use of a knowledge model comes to support this approach. It is shown, by the definition of a likelihood probability measure, the significance to discover new knowledge by discarding knowledge already described in the domain model. The rules can be used to enrich the knowledge model of the selected domain. This dissertation includes the implementation of the TAMIS system: "Text Analysis by Mining Interesting ruleS" and an experiment on a real-world text corpus holding on molecular biology.

Ce travail porte sur la problématique d'extraction de connaissances à partir de textes ou fouille de textes (FdT). Il s'articule autour des problèmes liés à l'analyse des textes, la fouille de données et l'interprétation des connaissances extraites. Un système d'extraction des connaissances pour analyser les textes en fonction de leur contenu est étudié. Les méthodes de fouille de données appliquées sont la recherche de motifs fréquents et l'extraction de règles d'association. Le processus de FdT est défini ainsi que ses propriétés. Une étude d'un ensemble de mesures de qualité qu'il est possible d'attacher aux règles est menée. Il est montré quel rôle ces mesures peuvent avoir sur l'interprétation des règles extraites. L'utilisation d'un modèle de connaissances vient appuyer cette approche. Il est montré, par la définition d'une mesure de vraisemblance, l'intérêt de découvrir de nouvelles connaissances en écartant celles qui sont déjà décrites par un modèle du domaine. Les règles peuvent donc être utilisées pour alimenter ce modèle. La thèse inclut la réalisation du système TAMIS et une expérience sur des données réelles de textes en biologie moléculaire.

Mots clés

Exploration de données Représentation des connaissances Langage naturel Traitement du (informatique) Biologie moléculaire-Bases de données

Domaines

Autre [cs.OH]

Thèses UL : Connectez-vous pour contacter le contributeur

https://hal.univ-lorraine.fr/tel-01746763

Soumis le : jeudi 29 mars 2018-10:44:24

Dernière modification le : lundi 11 septembre 2023-17:41:19

Dates et versions

tel-01746763 , version 1 (29-03-2018)

Identifiants

HAL Id : tel-01746763 , version 1

Citer

Hacène Cherfi. Etude et réalisation d'un système d'extraction de connaissances à partir de textes. Autre [cs.OH]. Université Henri Poincaré - Nancy 1, 2004. Français. ⟨NNT : 2004NAN10164⟩. ⟨tel-01746763⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA UNIV-LORRAINE LORIA THESES-UL

24 Consultations

0 Téléchargements

Etude et réalisation d'un système d'extraction de connaissances à partir de textes

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Lien texte intégral

Citer

Exporter

Collections

Partager