Décodeur neuronal pour la transcription de documents manuscrits anciens

Adeline Granet 1, 2 Emmanuel Morin 2 Harold Mouchère 1 Solen Quiniou 2 Christian Viard-Gaudin 1
1 IPI - Image Perception Interaction
LS2N - Laboratoire des Sciences du Numérique de Nantes
2 TALN - Traitement Automatique du Langage Naturel
LS2N - Laboratoire des Sciences du Numérique de Nantes
Résumé : L'absence de données annotées peut être une difficulté majeure lorsque l'on s'intéresse à l'analyse de documents manuscrits anciens. Pour contourner cette difficulté, nous proposons de diviser le problème en deux, afin de pouvoir s'appuyer sur des données plus facilement accessibles. Dans cet article nous présentons la partie décodeur d'un encodeur-décodeur multimodal utilisant l'apprentissage par transfert de connaissances pour la transcription des titres de pièces de la Comédie Italienne. Le décodeur transforme un vecteur de n-grammes au niveau caractères en une séquence de caractères correspondant à un mot. L'apprentissage par transfert de connaissances est réalisé principalement à partir d'une nouvelle ressource inexploitée contemporaine à la Comédie-Italienne et thématiquement proche ; ainsi que d'autres ressources couvrant d'autres domaines, des langages différents et même des périodes différentes. Nous obtenons 97,27% de caractères bien reconnus sur les données de la Comédie-Italienne, ainsi que 86,57% de mots correctement générés malgré une couverture de 67,58% uniquement entre la Comédie-Italienne et l'ensemble d'apprentissage. Les expériences montrent qu'un tel système peut être une approche efficace dans le cadre d'apprentissage par transfert. ABSTRACT Neural decoder for the transcription of historical handwritten documents. The lack of data can be an issue at the beginning of a study on new historical handwritten documents. To solve this issue, we present the decoder part of a multimodal approach based on transductive transfer learning for transcripting play titles of the Italian Comedy. MOTS-CLÉS : modèle neuronal, apprentissage par transfert, transcription, Comédie Italienne.
Type de document :
Communication dans un congrès
TALN, May 2018, Rennes, France
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01868747
Contributeur : Adeline Granet <>
Soumis le : mercredi 5 septembre 2018 - 17:41:49
Dernière modification le : mardi 18 septembre 2018 - 09:09:39

Fichier

TALN-65.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01868747, version 1

Collections

Citation

Adeline Granet, Emmanuel Morin, Harold Mouchère, Solen Quiniou, Christian Viard-Gaudin. Décodeur neuronal pour la transcription de documents manuscrits anciens. TALN, May 2018, Rennes, France. 〈hal-01868747〉

Partager

Métriques

Consultations de la notice

31

Téléchargements de fichiers

8