B. Ahat, C. Petermann, Y. Vigile-hoareau, M. Soufian-ben-amor, and . Bui, Algorithme automatique non supervisé pour le DEFT 2012, DEFT 2012, pp.73-80

A. Arnold, 10 years on, the world still learns from sars. The Lancet Infectious Diseases, pp.394-395

M. Martin-atkinson, J. Du, H. Piskorski, R. Tanev, V. Yangarber et al., Techniques for Multilingual Security-Related Event Extraction from Online News, Computational Linguistics, pp.163-186, 2013.
DOI : 10.1007/978-3-642-34399-5_9

M. Andrew and . Forsyth, The new International Health Regulations : a revolutionary change in global health security, Journal of the New Zealand Medical Association, vol.120, issue.23, p.2872, 1267.

F. Baroni-2008-]-marco-baroni, A. Chantree, S. Kilgarriff, and . Sharoff, Cleaneval : a competition for cleaning web pages, Actes du 4ème Workshop Web as Corpus, LREC 2008. European Language Resources Association, 2008.

A. Bénel, S. Calabretto, V. Eglin, J. Gensel, E. Murisasco et al., Information Interaction Intelligence le point sur le i3 , chapter Vers un « CTRL+F amélioré » pour tout type de document numérique ? Techniques et enjeux de la recherche de motifs, pp.2012-152

M. Didier-breton, P. Roche, F. Poncelet, and . Marques, Analyse de dépêches pour l'épidémiologie, 21èmes Journées Francophones d'Ingénierie des Connaissance, Démonstrations, pp.1-3, 2010.

S. Didier-breton, F. Bringay, P. Marques, M. Poncelet, and . Roche, Epimining : Using Web News for Influenza Surveillance, Workshop on Data Mining for Healthcare Management, pp.2012-2049, 2012.

R. Brixtel, M. Fontaine, B. Lesner, C. Bazin, and R. Robbes, Languageindependent clone detection applied to plagiarism detection, Source Code Analysis and Manipulation (SCAM) 10th IEEE Working Conference on, pp.77-86, 2010.
DOI : 10.1109/scam.2010.19

URL : https://hal.archives-ouvertes.fr/hal-01067165

R. Brixtel, G. Lejeune, A. Doucet, and N. Lucas, Any Language Early Detection of Epidemic Diseases from Web News Streams, 2013 IEEE International Conference on Healthcare Informatics, pp.2013-126
DOI : 10.1109/ICHI.2013.94

URL : https://hal.archives-ouvertes.fr/hal-01073195

J. W. Buehler, R. S. Hopkins, J. Overhage, D. M. Sosin, and V. Tong, Framework for Evaluating Public Health Surveillance Systems for early detection of Outbreaks, pp.33-46, 2004.

M. Cataldi, L. D. Caro, and C. Schifanella, Emerging topic detection on Twitter based on temporal and social terms evaluation, Proceedings of the Tenth International Workshop on Multimedia Data Mining, MDMKDD '10, pp.1-10, 2010.
DOI : 10.1145/1814245.1814249

D. Chakrabarti, R. Kumar, and K. Punera, A graphtheoretic approach to webpage segmentation, Proceedings of the 17th international conference on World Wide Web, WWW '08, pp.377-386, 2008.
DOI : 10.1145/1367497.1367549

URL : http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.112.3201

E. H. Chan, T. F. Brewer, L. C. Madoff, M. P. Pollack, A. L. Sonricker et al., Global capacity for emerging infectious disease detection, Proceedings of the National Academy of Sciences, pp.21701-21706, 2010.
DOI : 10.1073/pnas.1006219107

H. Chanlekha, A. Kawazoe, and N. Collier, A framework for enhancing spatial and temporal granularity in report-based health surveillance systems, BMC Medical Informatics and Decision Making, vol.7, issue.1, pp.1-2010
DOI : 10.1145/1089815.1089823

T. Charnois, M. Plantevit, C. Rigotti, and B. Crémilleux, Fouille de données séquentielles pour l'extraction d'information dans les textes, Revue TAL, pp.59-87, 2009.

V. Claveau and C. Raymond, Participation de l'IRISA à DEFT 2012 : recherche d'information et apprentissage pour la génération de mots-clés, DEFT 2012, pp.53-64, 2012.

K. Collier, L. Ai, and . Jin, A multilingual ontology for infectious disease surveillance: rationale, design and challenges, Language Resources and Evaluation, vol.32, issue.2, pp.405-413, 2006.
DOI : 10.1007/s10579-007-9019-7

N. Collier, A. Kawazoe, L. Jin, M. Shigematsu, D. Dien et al., An ontology-driven system for detecting global health events, Proc. 23rd International Conference on Computational Linguistics (COLING), pp.215-222

. Collier and . Collier, What's unusual in online disease outbreak news?, Journal of Biomedical Semantics, vol.1, issue.1, pp.2011-2054
DOI : 10.1186/2041-1480-1-2

C. James, R. Cowie, and W. G. Lehnert, Information Extraction, Commun. ACM, vol.39, issue.1, pp.80-91, 1996.
DOI : 10.1007/978-1-4615-0473-3_7

R. De-busser and M. Moens, Information extraction and information technology, pp.1-22, 2006.

R. De-busser and M. Moens, Information Extraction from an historical perspective, pp.23-46, 2006.

. Debili-2006-]-f, Z. B. Debili, E. Tahar, and . Souissi, Analyse automatique vs analyse interactive : un cercle vertueux pour la voyellation, l'étiquetage et la lemmatisation de l'arabe, Traitement Automatique des Langues Naturelles (TALN) 2006, pp.347-356, 2006.

D. Son, H. Quoc, K. Ai, and N. Collier, Global Health Monitor -a Web-based system for detecting and mapping infectious diseases, Proc. International Joint Conference on Natural Language Processing (IJCNLP), pp.951-956, 2008.

A. Doucet and M. Lehtonen, Unsupervised Classification of Text-Centric XML Document Collections, Lecture Notes in Computer Science, vol.4518, pp.497-509, 2006.
DOI : 10.1007/978-3-540-73888-6_46

URL : https://hal.archives-ouvertes.fr/hal-00324994

A. Doucet, Advanced document description, a sequential approach, ACM SIGIR Forum, vol.40, issue.1, pp.71-72, 2006.
DOI : 10.1145/1147197.1147212

A. Doucet and H. Ahonen-myka, An efficient any language approach for the integration of phrases in document retrieval, Language Resources and Evaluation, vol.22, issue.4, pp.159-180
DOI : 10.1007/s10579-009-9102-3

URL : https://hal.archives-ouvertes.fr/hal-01067894

A. Doucet, G. Kazai, and J. Meunier, ICDAR 2011 Book Structure Extraction Competition, 2011 International Conference on Document Analysis and Recognition, pp.1501-1505, 2011.
DOI : 10.1109/ICDAR.2011.298

URL : https://hal.archives-ouvertes.fr/hal-01069019

M. Du, P. V. Etter, M. Kopotev, M. Novikov, N. Tarbeeva et al., Building Support Tools for Russian-Language Information Extraction, Proceedings of the 14th international conference on Text, speech and dialogue, pp.380-387, 2011.
DOI : 10.1007/978-3-642-23538-2_48

I. Efimenko, V. Khoroshevsky, and V. Klintsov, Ontosminer family : Multilingual IE systems, SPECOM 2004 : 9th Conference Speech and Computer, p.43, 2004.

D. Adil-el-ghali and . Ghali, Enrichir et raisonner sur des espaces sémantiques pour l'attribution de mots-clés, DEFT 2012, pp.81-93

A. Ait-elhadj, M. Boughanem, M. Mezghiche, and F. Souam, Using structural similarity for clustering XML documents, Knowledge and Information Systems, vol.18, issue.6, pp.109-139
DOI : 10.1007/s10115-011-0421-5

O. Etzioni, A. Fader, J. Christensen, and S. Soderland, Open Information Extraction : The Second Generation, Proceedings of the 22nd International Joint Conference on Artificial Intelligence, pp.3-10

A. Ferraresi, E. Zanchetta, M. Baroni, and S. Bernardini, Introducing and evaluating ukwac, a very large web-derived corpus of english, Actes du 4ème Workshop Web as Corpus, p.157, 2008.

C. Clark, K. D. Freifeld, B. Y. Mandl, J. S. Reis, and . Brownstein, HealthMap : Global infectious disease monitoring through automated classification and visualization of Internet media reports, Journal of American Medical Informatics Association, p.41, 2007.

E. Gaussier, J. M. Renders, I. Matveeva, C. Goutte, and H. Déjean, A geometric view on bilingual lexicon extraction from comparable corpora, Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics , ACL '04, pp.527-534, 2004.
DOI : 10.3115/1218955.1219022

F. Gey, J. Karlgren, and N. Kando, Information access in a multilingual world, ACM SIGIR Forum, vol.43, issue.2, pp.24-28, 2009.
DOI : 10.1145/1670564.1670568

E. Giguet and N. Lucas, La détection automatique des citations et des locuteurs dans les textes informatifs, J. M, pp.410-418

G. Grice, Logic and Conversation, Syntax and semantics, pp.1975-71

R. Grishman, S. Huttunen, and R. Yangarber, Information extraction for enhanced access to disease outbreak reports, Journal of Biomedical Informatics, vol.35, issue.4, pp.236-246, 2002.
DOI : 10.1016/S1532-0464(03)00013-3

C. Grouin, D. Forest, P. Paroubek, and P. Zweigenbaum, Présentation et résultats du défi fouille de textes DEFT2011, DEFT 2011, pp.3-14, 2011.

A. Hazem and E. Morin, Extraction de lexiques bilingues à partir de corpus comparables par combinaison de représentations contextuelles, Actes de la 20e conférence sur le Traitement Automatique des Langues Naturelles (TALN'2013), pp.243-256

L. David, G. Heymann, and . Rodier, SARS : A Global Response to an International Threat, Brown Journal of World Affairs, issue.2, pp.2004-2027

R. Jerry and . Hobbs, The generic information extraction system, Proceedings of the 5th conference on Message understanding, MUC5 '93, pp.87-91, 1993.

J. R. Hobbs and E. Riloff, Information Extraction, Handbook of Natural Language Processing, p.36, 2010.

M. Kabadjov, J. Steinberger, and R. Steinberger, Multilingual Statistical News Summarization, Multi-source, Multilingual Information Extraction and Summarization, Theory and Applications of Natural Language Processing, pp.229-252
DOI : 10.1007/978-3-642-28569-1_11

URL : http://publications.jrc.ec.europa.eu/repository/handle/JRC65730

K. Hiroshi, N. Tetsuya, and W. Hideo, Deeper sentiment analysis using machine translation technology, Proceedings of the 20th international conference on Computational Linguistics , COLING '04, p.47, 2004.
DOI : 10.3115/1220355.1220426

J. Kärkkäinen, P. Sanders, and S. Burkhardt, Linear work suffix array construction, Journal of the ACM, vol.53, issue.6, pp.918-936
DOI : 10.1145/1217856.1217858

. Keller-2009-]-mikaela, C. Keller, J. Freifeld, and . Brownstein, Automated vocabulary discovery for geo-parsing online epidemic intelligence, BMC Bioinformatics, vol.10, issue.1, pp.385-2009
DOI : 10.1186/1471-2105-10-385

C. Kohlschütter, P. Fankhauser, and W. Nejdl, Boilerplate detection using shallow text features, Proceedings of the third ACM international conference on Web search and data mining, WSDM '10, pp.441-450, 2010.
DOI : 10.1145/1718487.1718542

C. Lecluze, R. Brixtel, L. Rigouste, and E. Giguet, Détection de zones parallèles à l'intérieur de bi-documents pour l'alignement multilingue, Régis Clouard, Gaël Lejeune, and Patrick Constant Actes de la 20e conférence sur le Traitement Automatique des Langues Naturelles (TALN'2013), pp.381-394

A. Doucet, Phrase detection in the wikipedia In Focused access to XML documents, Sixth International Workshop of the Initiative for the Evaluation of XML Retrieval, INEX, Lecture Notes in Computer Science, vol.4862, pp.115-121, 2007.

L. Lejeune, Ce que le texte peut dire au TAL, Ce que le texte fait à la phrase, 2009.

A. Lejeune, N. Doucet, and . Lucas, Tentative d'approche multilingue en Extraction d'Information, JADT 2010, pp.1259-1268
URL : https://hal.archives-ouvertes.fr/hal-01067147

A. Lejeune, R. Doucet, N. Yangarber, and . Lucas, Filtering news for epidemic surveillance : towards processing more languages with fewer resources, 4th Workshop on Cross Lingual Information Access, pp.3-10
URL : https://hal.archives-ouvertes.fr/hal-01067156

R. Gaël-lejeune, E. Brixtel, N. Giguet, and . Lucas, Deft2011 : appariement de résumés et d'articles scientifiques fondé sur les chaînes de caractères, Défi Fouille de Textes, pp.53-64, 2011.

. Lejeune, C. Lejeune, and . Durieux, Pour une approche cibliste en TAL : le cas de l'analyse automatique de la presse, 2012.
URL : https://hal.archives-ouvertes.fr/hal-01071938

R. Lejeune, A. Brixtel, N. Doucet, and . Lucas, DAnIEL: Language Independent Character-Based News Surveillance, pp.64-75
DOI : 10.1007/978-3-642-33983-7_7

URL : https://hal.archives-ouvertes.fr/hal-01071903

R. Lejeune, C. Brixtel, A. Lecluze, N. Doucet, and . Lucas, Added-Value of Automatic Multilingual Text Analysis for Epidemic Surveillance, In Artificial Intelligence in Medicine, pp.2013-2057
DOI : 10.1007/978-3-642-38326-7_40

URL : https://hal.archives-ouvertes.fr/hal-01074535

R. Lejeune, C. Brixtel, A. Lecluze, N. Doucet, and . Lucas, DAnIEL : Veille épidémiologique multilingue parcimonieuse (démonstration), TALN 2013, pp.787-788

J. Linge, R. Steinberger, T. Weber, R. Yangarber, E. Van-der-goot et al., Internet surveillance systems for early alerting of threats, Eurosurveillance, vol.14, issue.36, pp.20-41, 2009.

]. Lucas, Le rôle de la citation dans la structuration des articles de presse, Actes du premier colloque d'études japonaises de l'Université Marc Bloch, pp.215-244, 2000.

N. Lucas and E. Giguet, UniTHEM, un exemple de traitement linguistique à couverture multilingue, Conférence Internationale sur le Document Electronique (CIDE 8), pp.115-132, 2005.
URL : https://hal.archives-ouvertes.fr/hal-00256129

[. Lucas, Modélisation différentielle du texte, de la linguistique aux algorithmes, p.66, 2009.

]. Lucas, Stylistic devices in the news, as related to topic recognition, Studies in language, pp.301-316, 2012.

]. A. Lyon, M. Nunn, G. Grossel, and M. Burgman, Comparison of Web-Based Biosecurity Intelligence Systems: BioCaster, EpiSPIDER and HealthMap, Transboundary and Emerging Diseases, vol.180, issue.3, pp.2011-2055, 2011.
DOI : 10.1111/j.1865-1682.2011.01258.x

A. Mccallum, Information extraction, data mining and joint inference, Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining , KDD '06, pp.835-845, 2006.
DOI : 10.1145/1150402.1150515

P. Mcnamee, J. Mcnamee, and . Mayfield, Character N -Gram Tokenization for European Langauge Text Retrieval, Information Retrieval, 2004.

]. Mondor, J. S. Brownstein, E. H. Chan, L. C. Madoff, M. P. Pollack et al., Timeliness of Nongovernemental versus Governemental Global Outbreak Communications, Emerging Infectious Diseases, pp.2012-2037, 2012.

N. Grabar, Using a cross-language approach to improve the mapping between biomedical terminologies, In Artificial Intelligence in Medicine, pp.2013-60

J. Pasternack and D. Roth, Extracting article text from the web with maximum subsequence segmentation, Proceedings of the 18th international conference on World wide web, WWW '09, pp.971-980, 2009.
DOI : 10.1145/1526709.1526840

]. Piskorski, J. Belyaeva, and M. Atkinson, On Refining Real-Time Multilingual News Event Extraction through Deployment of Cross-Lingual Information Fusion Techniques, 2011 European Intelligence and Security Informatics Conference, pp.38-45, 2011.
DOI : 10.1109/EISIC.2011.72

E. Moreau and L. Audibert, Vers des outils robustes et interopérables pour le TAL : la piste UIMA, Traitement Automatique des Langues Naturelles (TALN) 2011, pp.2011-59

W. John, D. E. Ratcliff, and . Metzener, Pattern matching : The gestalt approach, Dr. Dobbs Journal, vol.13, issue.47, pp.46-59, 1988.

V. Claveau, Participation de l'IRISA à DEFT 2011 : expériences avec des approches d'apprentissage supervisé et non supervisé, DEFT 2011, pp.19-27

R. Reilly-2008-]-aimee, E. A. Reilly, C. M. Iarocci, D. M. Jung, N. P. Hartley et al., Indications and warning of pandemic influenza compared to seasonal influenza Advances in disease surveillance, pp.190-227, 2008.

E. Riloff and J. Lorenzen, Extraction-based text categorization : Generating domain-specific role relationships automatically. Natural language Information retrieval, pp.167-196, 1999.
DOI : 10.1007/978-94-017-2388-6_7

URL : http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.55.9276

R. Roy, Visualisations interactives pour l'aide personnalisée à l'interprétation d'ensembles documentaires, 2007.

P. K. Das, M. Vijayaraghavan, and . Mathew, Article : Eliminating noisy information in web pages using featured dom tree, International Journal of Applied Information Systems, vol.2, issue.2, pp.27-34, 2012.

J. Kelly, S. Henning-mark, and M. A. Smolinski, Microbial Threats to Health : Emergence, Detection, and Response, p.21, 2003.

D. Sperber and D. Wilson, Relevance : Communication and cognition, 1998.

M. Spousta, P. Marek, and . Pecina, Victor : the Web- Page Cleaning Tool, Actes du 4ème Workshop Web as Corpus, 2008.

R. Steinberger, F. Fuart, E. Van-der-goot, C. Best, R. Peter-von-etter et al., Text Mining from the web for medical intelligence. In Mining massive data sets for security, pp.295-310, 2008.

-. Steinberger, B. Steinberger, C. Pouliquen, and . Ignat, Using language-independent rules to achieve high multilinguality in Text Mining In Mining massive data sets for security, pp.217-240, 2008.

H. Tolentino, R. Kamadjeu, P. Fontelo, F. Liu, M. Matters et al., Scanning the Emerging Infectious Diseases Horizon -Visualizing ProMED Emails Using EpiSPIDER Advances in disease surveillance, pp.169-211, 2007.

N. Tulechki and L. Tanguy, Similarité de second ordre pour l'exploration de bases textuelles multilingues, Actes de la 20e conférence sur le Traitement Automatique des Langues Naturelles (TALN'2013), pp.651-658

]. T. Van-dijk, News as discourse, Hillsdale N.J, 1988.

V. Vergne, Découverte locale des mots vides dans des corpus bruts de langues inconnues, sans aucune ressource, Journées d'Analyse des Données Textuelles (JADT), pp.1157-1163, 2004.

V. Vergne, Un exemple de traitement "alingue" endogène : extraction de candidats termes dans des corpus bruts de langues non identifiées par étiquetage mot vide -mot plein, p.56, 2004.

A. S. Vieira, N. Da-silva, E. S. Pinto, . De-moura, M. B. João et al., A fast and robust method for web page template detection and removal, Proceedings of the 15th ACM international conference on Information and knowledge management , CIKM '06, pp.258-267, 2006.
DOI : 10.1145/1183614.1183654

]. Wendt, Chicago Tribune : The Rise of a Great American Newspaper, Rand McNally (Chicago), 1979.

J. M. Wilson, Argus : A Global Detection and Tracking System for Biological Events Advances in disease surveillance, 1953.

J. M. Wilson, Golbal Argus -Indications and Warnings to Detect and Track Biological Events, 2008.

]. Wilson, C. Mcdougall, and A. Forster, The Responsibility of Healthcare Institutions to Protect Global Health Security, Healthcare Quarterly, vol.12, issue.1, pp.56-60, 2009.
DOI : 10.12927/hcq.2009.20415

R. Yangarber, R. Peter-von-etter, and . Steinberger, Content Collection and Analysis in the Domain of Epidemiology, Proceedings of DrMED- 2008 : International Workshop on Describing Medical Web Resources, p.8, 2008.

S. Huttunen, V. Arto, R. Peter-von-etter, and . Yangarber, Relevance Prediction in Information Extraction using Discourse and Lexical Features, Nordic Conference on Computational Linguistics, Nodalida 2011, pp.114-121, 2011.

L. 'épidémie-de and S. , en Chine : dates des premiers cas de contamination (t1), de la première publication (t2) et date de connaissance officielle par l'autorité sanitaire (t3), p.23, 2002.

L. 'épidémie-de and S. De, en Chine : principales étapes de propagation et de signalement sur les 20 premières semaines de l'épidémie avec C le nombre de cas en Chine et H le nombre de cas hors de Chine, p.24, 2002.

. Richesse-du-vocabulaire-en-français-journalistique.........., En rouge la maladie principalement décrite dans l'article, en bleu les termes qui la rappellent. Les autres noms de maladies apparaissent en vert, p.76

. Richesse-du-vocabulaire-sur-un-article-en-grec, En rouge la maladie principalement décrite dans l'article, en bleu les termes qui la rappellent. Les autres noms potentiellement déclencheurs apparaissent en vert, p.77

. Rappel, précision et F 1 -mesure en fonction du seuil ? (par langue (anglais, chinois, grec, polonais et russe) et pour le corpus cumulé, p.115

. Rappel, précision et F 1 -mesure avec l'application d'une seuil absolu (par langue (anglais, chinois, grec, polonais et russe) et pour le corpus cumulé. La valeur en abscisse représente la différence admise (en nombre de caractères) entre le nom de maladie et les sous-chaînes identifiées dans le texte, p.116

R. Courbe and . Daniel, bleu) sur le jeu de données de référence. La baseline apparaît en rouge. L'aire sous la courbe est de 0, p.118

P. Évaluation-par, rappel en fonction de ? 1 (maladie) et ? 2 (lieu) pour les langues suivantes : anglais, chinois, grec, polonais et russe, p.121

P. Évaluation-par, précision en fonction de ? 1 (maladie) et ? 2 (lieu) pour les langues suivantes : anglais, chinois, grec, polonais et russe, p.122

P. Évaluation-par, F 1 -mesure en fonction de ? 1 (maladie) et ? 2 (lieu) pour les langues suivantes : anglais, chinois, grec, polonais et russe, p.123

W. Exemple-de-page and .. Du-site-du-figaro, les éléments textuels importants sont entourés en bleu. En orange figurent les éléments potentiellement intéressants, p.156

D. Nombre-de-maladies, de lieux et de paires maladie?lieu impliqués dans les signalements produits par, p.107

P. Exemples-de and D. Pour-lesquelles-le-premier-signalement-vient-de, Pour chaque paire nous indiquons la langue et la date de détection par chacun des systèmes ainsi que la plus-value (en jours) par rapport à ProMED. En gras, les langues de détection qui sont des langues officielles du pays, en italique les langues non-couvertes par, ProMED, vol.109

.. Une-langue-non-couverte, Repartition par langue des premiers signalements de ProMED et DAnIEL, p.110

P. Évaluation-par, 1 -mesure en fonction de ? 1 (maladie) et ? 2 (lieu) pour les langues suivantes : anglais, chinois, grec, polonais, russe (toutes les valeurs sont indiquées en pourcentage), p.124

B. Performances-par-langues-du-chaînage, Multi étant le corpus cumulé des cinq langues Entre parenthèse la plus-value par rapport à BP seul, p.168