Skip to Main content Skip to Navigation
Theses

Détection, localisation et typage de texte dans des images de documents hétérogènes par Réseaux de Neurones Profonds

Résumé : Lire automatiquement le texte présent dans les documents permet de rendre accessible les informations qu'ils contiennent. Pour réaliser la transcription de pages complètes, la localisation des lignes de texte est une étape cruciale. Les méthodes traditionnelles de détection de lignes, basées sur des approches de traitement d'images, peinent à généraliser à des jeux de données hétérogènes. Pour cela, nous proposons dans cette thèse une approche par réseaux de neurones profonds. Nous avons d'abord proposé une approche de segmentation mono-dimensionnelle des paragraphes de texte en lignes à l'aide d'une technique inspirée des modèles de reconnaissance, où une classification temporelle connexionniste (CTC) est utilisée pour aligner implicitement les séquences. Ensuite, nous proposons un réseau qui prédit directement les coordonnées des boîtes englobant les lignes de texte. L'ajout d'un terme de confiance à ces boîtes hypothèses permet de localiser un nombre variable d'objets. Nous proposons une prédiction locale des objets afin de partager les paramètres entre les localisations et, ainsi, de multiplier les exemples d'objets vus par chaque prédicteur de boîte lors de l'entraînement. Cela permet de compenser la taille restreinte des jeux de données utilisés. Pour récupérer les informations contextuelles permettant de prendre en compte la structure du document, nous ajoutons, entre les couches convolutionnelles, des couches récurrentes LSTM multi-dimensionnelles. Nous proposons trois stratégies de reconnaissance pleine page qui permettent de tenir compte du besoin important de précision au niveau des positions et nous montrons, sur la base hétérogène Maurdor, la performance de notre approche pour des documents multilingues pouvant être manuscrits et imprimés. Nous nous comparons favorablement à des méthodes issues de l'état de l'art. La visualisation des concepts appris par nos neurones permet de souligner la capacité des couches récurrentes à apporter l'information contextuelle.
Document type :
Theses
Complete list of metadatas

https://hal.archives-ouvertes.fr/tel-01932920
Contributor : Christian Wolf <>
Submitted on : Friday, November 23, 2018 - 2:05:19 PM
Last modification on : Wednesday, July 8, 2020 - 12:43:47 PM

File

MoyssetTheseDetectionLocalisat...
Files produced by the author(s)

Identifiers

  • HAL Id : tel-01932920, version 1

Citation

Bastien Moysset. Détection, localisation et typage de texte dans des images de documents hétérogènes par Réseaux de Neurones Profonds. Traitement du texte et du document. Université de Lyon, 2018. Français. ⟨NNT : 2018LYSEI044⟩. ⟨tel-01932920⟩

Share

Metrics

Record views

179

Files downloads

251