Audit d’une base de documents étiquetée

Résumé : Dans cet article, déjà présenté à ICDAR 2015, nous nous intéressons à l’étiquetage d’une base d’images de documents dans un contexte industriel. Nous travaillons plus particu- lièrement sur l’évaluation de la qualité d’un étiquetage préexistant. Dans la plupart des cas pratiques, un opérateur étiquette manuellement une base d’images de documents en parcourant séquentiellement les vignettes correspondant aux images. Cette tâche est très répétitive ; de plus le plan de classement définissant les noms et le nombre des classes est souvent incomplet, ce qui conduit à de nombreuses erreurs d’étiquetage. La question est alors d’évaluer si la qualité d’un lot étiqueté est suffisante pour qu’il soit accepté. Notre objectif est de faciliter et d’accélérer cette évaluation qui prend en pratique plus de 1, 5 fois le temps nécessaire à l’étiquetage lui-même. Nous proposons un outil interactif pour visualiser les données sous la forme d’un graphe. Ce graphe met en évidence les similarités entre documents ainsi que la qualité de l’étiquetage. Nous définissons des critères sur le graphe qui caractérisent les trois types d’erreur qu’un opérateur peut faire : une image est mal étiquetée, une classe devrait être découpée en sous-classes plus pertinentes, plusieurs classes devraient être fusionnées en une seule. Ceci nous permet de focali- ser l’attention de l’utilisateur sur de potentielles erreurs. Il peut alors plus facilement compter les erreurs d’étiquetage et valider (ou pas) une qualité d’étiquetage conforme aux attentes.
Liste complète des métadonnées

Cited literature [11 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-01286564
Contributor : Romain Giot <>
Submitted on : Friday, March 11, 2016 - 3:30:59 PM
Last modification on : Thursday, January 11, 2018 - 6:20:17 AM
Document(s) archivé(s) le : Sunday, November 13, 2016 - 3:25:09 PM

File

SDNRI_ex.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01286564, version 1

Citation

Romain Giot, Romain Bourqui, Nicholas Journet, Anne Vialard. Audit d’une base de documents étiquetée. Colloque International Francophone sur l’Écrit et le Document 2016 (CIFED), Mar 2016, Toulouse, France. pp.153-166. ⟨hal-01286564⟩

Share

Metrics

Record views

145

Files downloads

69