Audit d’une base de documents étiquetée

Résumé : Dans cet article, déjà présenté à ICDAR 2015, nous nous intéressons à l’étiquetage d’une base d’images de documents dans un contexte industriel. Nous travaillons plus particu- lièrement sur l’évaluation de la qualité d’un étiquetage préexistant. Dans la plupart des cas pratiques, un opérateur étiquette manuellement une base d’images de documents en parcourant séquentiellement les vignettes correspondant aux images. Cette tâche est très répétitive ; de plus le plan de classement définissant les noms et le nombre des classes est souvent incomplet, ce qui conduit à de nombreuses erreurs d’étiquetage. La question est alors d’évaluer si la qualité d’un lot étiqueté est suffisante pour qu’il soit accepté. Notre objectif est de faciliter et d’accélérer cette évaluation qui prend en pratique plus de 1, 5 fois le temps nécessaire à l’étiquetage lui-même. Nous proposons un outil interactif pour visualiser les données sous la forme d’un graphe. Ce graphe met en évidence les similarités entre documents ainsi que la qualité de l’étiquetage. Nous définissons des critères sur le graphe qui caractérisent les trois types d’erreur qu’un opérateur peut faire : une image est mal étiquetée, une classe devrait être découpée en sous-classes plus pertinentes, plusieurs classes devraient être fusionnées en une seule. Ceci nous permet de focali- ser l’attention de l’utilisateur sur de potentielles erreurs. Il peut alors plus facilement compter les erreurs d’étiquetage et valider (ou pas) une qualité d’étiquetage conforme aux attentes.
Type de document :
Communication dans un congrès
Colloque International Francophone sur l’Écrit et le Document 2016 (CIFED), Mar 2016, Toulouse, France. Colloque International Francophone sur l’Écrit et le Document 2016 (CIFED), pp.153-166, 2016, <https://www.irit.fr/sdnri2016/cifed.php>
Liste complète des métadonnées


https://hal.archives-ouvertes.fr/hal-01286564
Contributeur : Romain Giot <>
Soumis le : vendredi 11 mars 2016 - 15:30:59
Dernière modification le : vendredi 1 avril 2016 - 11:58:09
Document(s) archivé(s) le : dimanche 13 novembre 2016 - 15:25:09

Fichier

SDNRI_ex.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01286564, version 1

Citation

Romain Giot, Romain Bourqui, Nicholas Journet, Anne Vialard. Audit d’une base de documents étiquetée. Colloque International Francophone sur l’Écrit et le Document 2016 (CIFED), Mar 2016, Toulouse, France. Colloque International Francophone sur l’Écrit et le Document 2016 (CIFED), pp.153-166, 2016, <https://www.irit.fr/sdnri2016/cifed.php>. <hal-01286564>

Partager

Métriques

Consultations de
la notice

93

Téléchargements du document

42