I. Lifat, , p.41000

, Rue Albert Einstein, vol.8

I. Lifo and U. Orléans, En adoptant une démarche purement expérimentale, nous avons vérifié si les scores MUC, B 3 , CEAF, BLANC, LEA et le meta-score CoNLL respectent les bonnes propriétés qui définissent une telle métrique. Notre étude montre que seul le score CEAF m est potentiellement une métrique de similarité normalisée, vol.45000

. Barbaresi-a, Ad hoc and general-purpose corpus construction from web sources, 2015.

. Barbaresi-a.-;-p, S. Cook, R. Evert, . Schäfer-&-e, and É. Stemle, Efficient construction of metadata-enhanced web corpora, Proceedings of the 10th Web as Corpus Workshop, pp.7-16, 2016.

. Barbaresi-a, Generic Web Content Extraction with Open-Source Software, Proceedings of KONVENS 2019, Kaleidoscope Abstracts, pp.267-268, 2019.

. Barbaresi-a.-&-lejeune-g, Out-of-the-Box and Into the Ditch ? Multilingual Evaluation of Generic Text Extraction Tools, Proceedings of the 12th Web as Corpus workshop, 2020.

M. Baroni, F. Chantree, and . Kilgarriff-a.-&-sharoff-s, Cleaneval : a Competition for Cleaning Web Pages, Proceedings of LREC, pp.638-643, 2008.

Y. Calberac, Terrains de géographes, géographes de terrain. Communauté et imaginaire disciplinaires au miroir des pratiques de terrain des géographes français du XXe siècle, 2010.

. Caliskan-a, J. J. Bryson, and . Narayanan-a, Semantics derived automatically from language corpora contain human-like biases, Science, vol.356, issue.6334, pp.183-186, 2017.

. Geyken-a, . Barbaresi-a, J. Didakowski, B. Jurish, and . Wiegand-f.-&-lemnitzer-l, , 2017.

, Digitalen Wörterbuchs der deutschen Sprache" (DWDS), vol.45, pp.327-344

. Hamborg-f, N. Meuschke, . Breitinger-c.-&-gipp-b.-;-m, V. Gaede, . Trkulja-&-v et al., news-please : A generic news crawler and extractor, Proceedings of the 15th International Symposium of Information Science, pp.218-223, 2017.

J. E. Gebru-t, Lessons from Archives : Strategies for Collecting Sociocultural Data in Machine Learning, Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency, pp.306-316, 2020.

C. Kohlschütter and . Fankhauser-p.-&-nejdl-w, Boilerplate detection using shallow text features, Proceedings of the Third ACM International Conference on Web Search and Data Mining, WSDM '10, pp.441-450, 2010.

. &. Lejeune-g and . Barbaresi-a, Bien choisir son outil d'extraction de contenu à partir du Web, Actes de la conférence JEP-TALN-RECITAL 2020, 2020.

. Lejeune-g.-&-zhu-l, A New Proposal for Evaluating Web Page Cleaning Tools, Computación y Sistemas, vol.22, issue.4, 2018.

. &. Mcenery-t and . Hardie-a, Corpus linguistics : Method, theory and practice, 2011.

. Olston-c.-&-najork-m, Web Crawling. Foundations and Trends in Information Retrieval, vol.4, pp.175-246, 2010.

. E. Peters-m and . Lecocq-d, Content extraction using diverse feature sets, Proceedings of the 22nd International Conference on World Wide Web, pp.89-90, 2013.

J. Pomikálek, Removing boilerplate and duplicate content from web corpora, 2011.

J. W. Ratcliff and . E. Metzener-d, Pattern Matching : The Gestalt Approach, Dr. Dobb's Journal, vol.13, issue.7, p.46, 1988.

. Schäfer-r and . Barbaresi-a.-&-bildhauer-f, The Good, the Bad, and the Hazy : Design Decisions in Web Corpus Construction, Proceedings of the 8th Web as Corpus Workshop, pp.7-15, 2013.

S. J. Saint-amand, H. Plamad?, M. Koehn, P. &. Callison-burch-c, and . Lopez-a, Dirt cheap web-scale parallel text from the Common Crawl, Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, pp.1374-1383, 2013.

. J. Suárez-p and . Sagot-b.-&-romary-l, Asynchronous Pipeline for Processing Huge Corpora on Medium to Low Resource Infrastructures, Challenges in the Management of Large Corpora (CMLC-7), pp.9-16, 2019.

. Tanguy-l, La ruée linguistique vers le Web, Texto ! Textes et Cultures, vol.18, issue.4, 2013.

. Valette-m, Pour une science des textes instrumentée. Syntaxe et sémantique, vol.9, pp.9-14, 2008.

. Weninger-t, . Palacios-r, V. Crescenzi, . &. Gottron-t, and . Merialdo-p, Web Content Extraction : A Meta-Analysis of Its Past and Thoughts on Its Future, SIGKDD Explorations Newsletter, vol.17, issue.2, pp.17-23, 2016.

B. D. Références, . Ligozat-a.-l, . Martin-f, M. Bras, P. Magistry et al.,

&. Lavergne and T. , Corpora with Part-of-Speech Annotations for Three Regional Languages of France : Alsatian, Occitan and Picard, Actes de 11th edition of the Language Resources and Evaluation Conference, p.1704806, 2018.
URL : https://hal.archives-ouvertes.fr/hal-02358018

. Branco-a, . Calzolari-n.-&-choukri-k, and . Éds, Proceedings of the Workshop on Research Results Reproducibility and Resources Citation in Science and Technology Proceedings, 2016.

. Branco-a, . Calzolary-n.-&-choukri-k, and . Éds, Proceedings of the 4REAL 2018 -Workshop on Replicability and Reproducibility of Research Results in Science and Technology of Language, 2018.

B. , L'alsacien sans peine, 2001.

. B. Cohen-k, J. Xia, P. Zweigenbaum, . Callahan-t, O. Hargraves et al., Three Dimensions of Reproducibility in Natural Language Processing, 2018.

. Piperidis-&-t and É. Tokunaga, Actes de the Eleventh International Conference on Language Resources and Evaluation, 2018.

. Fokkens-a, . Van-erp-m, M. Postma, . Pedersen-t, P. &. Vossen et al., , 2013.

, Offspring from Reproduction Problems : What Replication Failure Teaches Us, Actes de the 51st

, Annual Meeting of the Association for Computational Linguistics (ACL'13), pp.1691-1701

P. Magistry and . Ligozat-a.-l.-&-rosset-s, Étiquetage en parties du discours de langues peu dotées par spécialisation des plongements lexicaux, Actes de Conférence sur le Traitement Automatique des Langues Naturelles (TALN'18), p.1793092, 2018.

M. Mieskes, . Fort-k, . Névéol-a, C. &. Grouin, and . B. Cohen-k, NLP Community Perspectives on Replicability, Recent Advances in Natural Language Processing, p.2282794, 2019.
URL : https://hal.archives-ouvertes.fr/hal-02282794

Y. Pinter and . Guthrie-r.-&-eisenstein-j, Mimicking word embeddings using subword RNNs, Actes de the 2017 Conference on Empirical Methods in Natural Language Proces-36, 2017.

, , pp.102-112

J. Tourille, O. Ferret, and . Névéol-a.-&-tannier-x, Neural architecture for temporal relation extraction : A bi-LSTM approach for detecting narrative containers, 2017.
URL : https://hal.archives-ouvertes.fr/cea-01841667

, Annual Meeting of the Association for Computational Linguistics, vol.2, pp.224-230

, Du message au moratoire

, AFCP a réaffirmé sa motion à travers une pétition 11 « pour l'arrêt des expertises vocales tant qu'elles n'auront pas été validées scientifiquement » en 1997, suite à l'affaire Prieto 12 . Celle-ci avait montré le manque de maturité des méthodes alors employées et, parfois, les insuffisances de formation en parole des experts. Bien que n'apportant aucune information complémentaire, la pétition a été mieux reçue dans le milieu judiciaire et la presse et s'est trouvée citée plus souvent durant les auditions au tribunal que la motion elle-même. Outre le fort soutien recueilli à cette occasion, son titre est certainement une clé de son succès. Il livre en quelques mots l'essentiel du message, la nécessité d'un moratoire complet sur l'expertise en identification de voix, Constatant que les actions précédentes n'avaient pas fait significativement baisser le nombre des expertises judiciaires en France

, Par la constitution d'un groupe de travail sur la caractérisation du locuteur et de la langue

, Soit en évitant de parler l'expert en personne et de prendre position sur l'affaire en cours

L. , L. Boë, J. Bonastre, P. Bimbot, P. Dupont et al., Les autres intervenants sont F

L. Prieto, est une affaire de terrorisme dans laquelle l'identification par la voix a joué un rôle crucial, 2000.

/. L'affaire-kulik and . Bardon,

A. Références, M. Bonastre, J. F. Kahn, J. Rossato, S. Bernard et al., Fabiole, a speech database for forensic speaker comparison, Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16, pp.726-733, 2016.

M. Ajili, J. F. Bonastre, W. B. Kheder, S. Rossato, and J. Kahn, Phonetic content impact on forensic voice comparison, IEEE Spoken Language Technology Workshop (SLT, pp.210-217, 2016.
URL : https://hal.archives-ouvertes.fr/hal-02065374

M. Ajili, J. F. Bonastre, W. B. Kheder, S. Rossato, and J. Kahn, Homogeneity Measure Impact on Target and Non-Target Trials in Forensic Voice Comparison, INTERSPEECH, pp.2844-2848, 2017.

L. Besacier, J. F. Bonastre, and C. Fredouille, Localization and selection of speakerspecific information with statistical modeling, Speech Communication, vol.31, issue.2-3, pp.89-106, 2000.

L. J. Boë, F. Bimbot, J. F. Bonastre, and P. Dupont, De l'évaluation des systèmes de vérification du locuteur à la mise en cause des expertises vocales en identification juridique, Langues, vol.2, issue.4, pp.270-288, 1999.

L. J. Boë, Forensic voice identification in France, Speech Communication, vol.31, issue.2-3, pp.205-224, 2000.

L. J. Boë and J. F. Bonastre, L'identification du locuteur : 20 ans de témoignage dans les cours de Justice. Le cas du LIPSADON « laboratoire indépendant de police scientifique, Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, vol.1, pp.417-424, 2012.

L. J. Boë and J. F. Bonastre, Expertise de la voix : identifier le locuteur à partir d'écoutes téléphoniques ? Des expertises à la recherche d'une caution scientifique? ou le cas du laboratoire Lipsadon, J'essaime, 2012.

J. F. Bonastre, F. Bimbot, L. J. Boë, J. P. Campbell, D. A. Reynolds et al., Person authentication by voice: A need for caution, Eighth European Conference on Speech Communication and Technology, 2003.

J. F. Bonastre, F. Bimbot, L. J. Boë, J. P. Campbell, D. A. Reynolds et al., Authentification des personnes par leur voix : un nécessaire devoir de précaution, pp.33-36, 2004.

J. F. Bonastre and D. Matrouf, La reconnaissance du locuteur : un problème résolu ? Journées d'études sur la Parole (JEP), 2008.

J. F. Bonastre, I. Magrin-chagnolleau, S. Euler, F. Pellegrino, R. André-obrecht et al., SPeaker and Language Characterization (SpLC): A Special Interest Group (SIG) of ISCA, Seventh European Conference on Speech Communication and Technology, 2001.

J. P. Campbell, W. Shen, W. M. Campbell, R. Schwartz, J. F. Bonastre et al., Forensic speaker recognition, IEEE Signal Processing Magazine, vol.26, issue.2, pp.95-103, 2009.

C. Champod and D. Meuwly, The inference of identity in forensic speaker recognition, vol.31, pp.193-203, 2000.

G. Gravier, C. Mokbel, and G. Chollet, Model dependent spectral representations for speaker recognition, Fifth European Conference on Speech Communication and Technology, 1997.

J. Kahn, S. Rossato, and J. F. Bonastre, Beyond doddington menagerie, a first step towards, 2010 IEEE International Conference on Acoustics, Speech and Signal Processing, pp.4534-4537, 2010.
URL : https://hal.archives-ouvertes.fr/hal-00959187

J. Kahn, N. Audibert, S. Rossato, and J. F. Bonastre, Intra-speaker variability effects on Speaker Verification performance, p.21, 2010.
URL : https://hal.archives-ouvertes.fr/hal-00959188

J. Kahn, N. Audibert, S. Rossato, and J. F. Bonastre, Speaker verification by inexperienced and experienced listeners vs. speaker verification system, 2011 IEEE International Conference on Acoustics, Speech and Signal Processing, pp.5912-5915, 2011.
URL : https://hal.archives-ouvertes.fr/hal-01317620

J. Kahn, Parole de locuteur: performance et confiance en identification biométrique vocale, 2011.

I. Magrin-chagnolleau, G. Gravier, M. Seck, O. Boeffard, R. Blouet et al., A further investigation on speech features for speaker characterization, Sixth International Conference on Spoken Language Processing, 2000.

D. Meuwly and A. Drygajlo, Forensic speaker recognition based on a Bayesian framework and Gaussian Mixture Modelling (GMM), 2001: A Speaker Odyssey-The Speaker Recognition Workshop, 2001.

D. Meuwly, A. Goode, A. Drygajlo, J. Gonzalez-rodriguez, and J. L. Molina, Validation of forensic automatic speaker recognition systems: Evaluation frameworks for intelligence and evidential purposes, Forensic Science International, vol.136, pp.364-364, 2003.

P. Rose, Technical forensic speaker recognition: Evaluation, types and testing of evidence, Computer Speech & Language, vol.20, issue.2-3, pp.159-191, 2006.

P. Perrot, G. Aversano, G. Chollet, P. Perrot, and G. Chollet, Voice disguise and automatic detection: review and perspectives, Progress in nonlinear speech processing, vol.123, p.3878, 2007.