Extraction automatisée de lignes et de fragments textuels dans les images de manuscrits d’auteur du 19ème siècle

Résumé : Dans cet article nous proposons une nouvelle approche pour l’enrichissement des éditions élec- troniques de corpus littéraires grâce à l’estimation de la structure des documents manuscrits. Dans tout processus d’analyse de document manuscrit l’analyse de la structure est une étape im- portante : en effet, disposer de la position des lignes de texte, des paragraphes et des fragments permet d’envisager de nouveaux moyens d’exploiter les corpus littéraires. L’extraction de struc- ture d’un document manuscrit est rendue difficile par les variations d’orientation de la ligne de base et des espaces interligne mais également par les chevauchements entre lignes et les occlu- sions. On propose un algorithme d’extraction des lignes de texte et des fragments textuels basé sur une analyse en composantes connexes. Une fois l’extraction des composantes connexes réal- isée on construit un graphe d’adjacences pondéré et orienté : chaque composante connexe corre- spond à un nœud. Chaque nœud est l’origine de 4 arcs le reliant à ses plus proches voisins dans 4 directions : gauche, droite, haut et bas. En parallèle et via une approche similaire chaque com- posante connexe est identifiée comme appartenant à une des classes suivantes : haut de page, bas de page, gauche, droite ou intérieur du texte. Cette identification permet d’initialiser l’algorithme d’extraction des lignes qui utilise une recherche du plus court chemin entre connexité gauche et droite sur le graphe orienté décrit précédemment. L’extraction des fragments est ensuite réalisée via une fusion des lignes extraites par rapport à des critères de distance interligne et de variation d’orientation de la ligne de base.
Document type :
Conference papers
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01535445
Contributor : Équipe Gestionnaire Des Publications Si Liris <>
Submitted on : Thursday, June 8, 2017 - 11:24:50 PM
Last modification on : Tuesday, January 29, 2019 - 5:01:29 PM

Identifiers

  • HAL Id : hal-01535445, version 1

Citation

Vincent Malleron, Véronique Eglin, Hubert Emptoz, Stéphanie Dord-Crouslé, Philippe Régnier. Extraction automatisée de lignes et de fragments textuels dans les images de manuscrits d’auteur du 19ème siècle. MAJESCTIC, Nov 2009, Avignon, France. ⟨hal-01535445⟩

Share

Metrics

Record views

167