Atténuer les erreurs de numérisation dans la reconnaissance d'entités nommées pour les documents historiques - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2021

Atténuer les erreurs de numérisation dans la reconnaissance d'entités nommées pour les documents historiques

Résumé

This paper tackles the task of NER applied to historical texts obtained from processing digital images of news papers using OCR techniques. The main challenge for this task is that the OCR process leads to misspellings and linguistic errors in the output text, which can impact the performance of the NER. We conduct a comparative evaluation on two historical datasets in German and French against previous state-of-the-art models, and we propose a model based ona hierarchical stack of Transformers to approach the NER task for historical data. Our findings show that the proposed model clearly improves the results on both historical data sets
Cet article aborde la reconnaissance d’entités nommées (NER) appliquée aux textes historiques obtenus à partir du traitement d’images numériques de journaux à l’aide de tech-niques de reconnaissance optique de caractères (OCR). Nous soutenons que le principal défi pour cette tâche est que le processus OCR produit des textes contenant entre autres des fautes d’orthographe et des erreurs de syntaxes. De plus, des variations sémantiques peuvent être présentes dans les documents anciens, ce qui a un impact sur les performances de la reconnaissance d’entités nommées. Nous menons une évaluation comparative à l’état de l’art de deux ensembles de données historiques en allemand et en français, et nous proposons un modèle basé sur une pile hiérarchique de couches Transformer pour aborder la reconnaissance d’entités nommées dans des données historiques. Nos résultats montrent que le modèle proposé améliore clairement les résultats sur les deux ensembles de données
Fichier principal
Vignette du fichier
main(1).pdf (102.39 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03320332 , version 1 (15-08-2021)

Identifiants

Citer

Emanuela Boros, Ahmed Hamdi, Elvys Linhares Pontes, Luis Adrián Cabrera-Diego, Jose G. Moreno, et al.. Atténuer les erreurs de numérisation dans la reconnaissance d'entités nommées pour les documents historiques. Conférence en Recherche d'Informations et Applications (CORIA 2021), ARIA : Association Francophone de Recherche d’Information (RI) et Applications, Apr 2021, Grenoble (virtuel), France. pp.1 - 7, ⟨10.24348/coria.2021.mini_24⟩. ⟨hal-03320332⟩
97 Consultations
57 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More