Veille épidémiologique multilingue : une approche parcimonieuse au grain caractère fondée sur le genre textuel - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2013

Multilingual epidemic surveillance : a parsimonious caracter-based approach

Veille épidémiologique multilingue : une approche parcimonieuse au grain caractère fondée sur le genre textuel

Gaël Lejeune

Résumé

In this dissertation we tackle the problem of multilingual epidemic surveillance. The approach advocated here which is differential, endogenous and noncompositionnal. We maximise the factorization by using genre properties and communication principles. Our local analysis does not rely on classical linguistic analyzers for morphology, syntax or semantics. The distribution of character strings at key positions is exploited, thus avoiding the problem of the definition of a "word". We implemented DAnIEL (Data Analysis for Information Extraction in any Language), a system using this approach. DanIEL analyzes press articles in order to detect epidemic events. DAnIEL is fast in comparison to state-of-the-art systems. It needs very few additional knowledge for processing new languages. DAnIEL is also evaluated on the analysis of scientific articles for classification and keyword extraction. Finally, we propose to use DAnIEL outputs to perform a task-based evaluation of boilerplate removal systems.
Cette thèse explore la problématique du multilinguisme en recherche d’information. Nous présentons une méthode de veille sur la presse adaptée au traitement du plus grand nombre de langues possible. Le domaine spécifique d’étude est la veille épidémiologique, domaine pour lequel une couverture la plus large possible est nécessaire. La méthode employée est différentielle, noncompositionnelle et endogène. Notre but est de maximiser la factorisation pour traiter de nouvelles langues avec un coût marginal minimal. Les propriétés du genre journalistique sont exploitées, en particulier la répétition d’éléments à des positions clés du texte. L’analyse au grain caractère permet d’être indépendant des contraintes posées par le mot graphique dans de nombreuses langues. Nous aboutissons à l’implantation du système DAnIEL (Data Analysis for Information Extraction in any Language). DAnIEL analyse les documents pour déterminer s’ils décrivent des faits épidémiologiques et les regrouper par paires maladie-lieu. DAnIEL est rapide et efficace en comparaison des systèmes existants et nécessite des ressources très légères. Nous montrons d’autres applications de DAnIEL pour des tâches de classification et d’extraction de mots-clés dans des articles scientifiques. Enfin, nous exploitons les résultats de DAnIEL pour évaluer des systèmes de nettoyage de page web.
Fichier principal
Vignette du fichier
manuscrit_lejeune.pdf (2.51 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-01074940 , version 1 (16-10-2014)

Identifiants

  • HAL Id : tel-01074940 , version 1

Citer

Gaël Lejeune. Veille épidémiologique multilingue : une approche parcimonieuse au grain caractère fondée sur le genre textuel. Traitement du texte et du document. Université de Caen, 2013. Français. ⟨NNT : ⟩. ⟨tel-01074940⟩
283 Consultations
292 Téléchargements

Partager

Gmail Facebook X LinkedIn More