Skip to Main content Skip to Navigation
Conference papers

Apports de l'analyse automatique multilingue pour la veille épidémiologique

Gaël Lejeune 1 Romain Brixtel 1 Charlotte Lecluze 1 Antoine Doucet 1
1 Equipe Hultech - Laboratoire GREYC - UMR6072
GREYC - Groupe de Recherche en Informatique, Image et Instrumentation de Caen
Abstract : The early detection of disease outbursts is an important objective of epidemic surveillance. The web news are one of the information bases for detecting epidemic events as soon as possible, but to analyze tens of thousands of articles published daily is costly. Recently, automatic systems have been devoted to epidemiological surveillance. The main issue for these systems is to process more languages at a reasonable cost. However, existing systems mainly process major languages (English, French, Russian, Spanish...). Thus, when the first news reporting a disease is written in a minor language, the timeliness of event detection is worsened. In this paper, we evaluate an automatic style-based method, designed to fill the gaps of existing automatic systems. It is parsimonious in resources and specially adapted for multilingual issues. The events detected by the human-moderated ProMED mail between November 2011 and January 2012 are used as a reference dataset and compared to events detected in 17 languages by the system DAnIEL from web articles of this time-window. We show how being able to process press articles in various languages allows quicker detection of epidemic events in some regions of the world. Résumé La détection précoce des épidémies de maladie est un objectif primordial pour les autorités sanitaires. La presse en ligne constitue l'une des principales bases d'information pour détecter dès que possible ces évènements épidémiologiques. L'analyse des dizaines de milliers d'articles publiés chaque jour est coûteuse. Différentes propositions d'approche automatique ont été formulées ces dernières années. Le principal problème pour ces systèmes est de traiter plus de langues à un coût limité. Cependant, les systèmes existants couvrent un éventail limité de langues (anglais, français, russe, espagnol,…). Ainsi, lorsque le premier article est rédigé dans une autre langue, la rapidité de la détection est moindre. Dans cet article, nous proposons de comparer un système automatique massivement multilingue avec le système manuel de référence ProMED. Nous montrons comment l'augmentation de la couverture en langues amène une amélioration du délai de détection des évènements épidémiologiques. Mots-clés : veille, articles de presse, Extraction d'Information (EI), Recherche d'Information (RI), données textuelles, multilinguisme.
Document type :
Conference papers
Complete list of metadata

Cited literature [13 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-01075057
Contributor : Greyc Référent Connect in order to contact the contributor
Submitted on : Thursday, October 16, 2014 - 3:05:50 PM
Last modification on : Tuesday, October 19, 2021 - 11:34:56 PM
Long-term archiving on: : Saturday, January 17, 2015 - 10:45:32 AM

File

ACTI-LEJEUNE-2014-1.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01075057, version 1

Citation

Gaël Lejeune, Romain Brixtel, Charlotte Lecluze, Antoine Doucet. Apports de l'analyse automatique multilingue pour la veille épidémiologique. Journées internationales d’Analyse statistique des Données Textuelles, Jun 2014, Paris, France. ⟨hal-01075057⟩

Share

Metrics

Les métriques sont temporairement indisponibles