Skip to Main content Skip to Navigation
Conference papers

Reconnaissance d'entités nommées sur des sorties OCR bruitées : des pistes pour la désambiguïsation morphologique automatique

Caroline Koudoro-Parfait 1, 2, 3, 4 Gaël Lejeune 3, 4 Richy Buth 1, 3 
2 ObTIC - Observatoire des textes, des idées et des corpus
BnF - Bibliothèque nationale de France, CELLF - Centre d’étude de la langue et des littératures françaises, SCAI - Sorbonne Center for Artificial Intelligence
4 STIH-LC - Équipe Linguistique computationnelle
STIH - Sens, Texte, Informatique, Histoire
Résumé : La variation dans les données textuelles, en particulier le bruit, est un facteur limitant la performance des systèmes de Reconnaissance d’Entités Nommées (REN). Les systèmes de REN sont en effet généralement entraînés sur des données « propres », non-bruitées, ce qui n’est pas le cas des données des humanités numériques obtenues par reconnaissance optique de caractères (OCR). De fait, la qualité des transcriptions OCR est souvent perçue comme la source principale des erreurs faites par les outils de REN. Cependant, des résultats obtenus avec différents systèmes REN sur des transcriptions OCR d’un corpus du 19ème siècle (ELTeC) tendent à montrer une certaine robustesse, modulo la présence de formes bruitées, parfois dites « contaminées ». La difficulté, est alors de lier ces formes contaminées avec leur forme de référence, par exemple, pour rapprocher la chaîne « Parisl »et la chaîne « Paris ». Il s’agit de modéliser le fait que différentes variations se rapprochent du même terme. Des questions quant à l’automatisation de cette tâche et sa généralisation à toutes les variations d’un même terme restent ouvertes. Nous montrons dans cet article différentes expériences visant à traiter ce problème sous l‘angle de la désambiguïsation morphologique des entités nommées (EN) en aval de la chaîne de traitement, plutôt que par la correction en amont des données de l’OCR.
Document type :
Conference papers
Complete list of metadata

https://hal.archives-ouvertes.fr/hal-03701476
Contributor : Yannick Parmentier Connect in order to contact the contributor
Submitted on : Friday, June 24, 2022 - 4:31:24 PM
Last modification on : Friday, August 5, 2022 - 9:28:20 AM

File

7039.pdf
Publisher files allowed on an open archive

Identifiers

  • HAL Id : hal-03701476, version 1

Citation

Caroline Koudoro-Parfait, Gaël Lejeune, Richy Buth. Reconnaissance d'entités nommées sur des sorties OCR bruitées : des pistes pour la désambiguïsation morphologique automatique. Traitement Automatique des Langues Naturelles, 2022, Avignon, France. pp.45-55. ⟨hal-03701476⟩

Share

Metrics

Record views

149

Files downloads

5