Audit d’une base de documents étiquetée - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2016

Audit d’une base de documents étiquetée

Résumé

Dans cet article, déjà présenté à ICDAR 2015, nous nous intéressons à l’étiquetage d’une base d’images de documents dans un contexte industriel. Nous travaillons plus particu- lièrement sur l’évaluation de la qualité d’un étiquetage préexistant. Dans la plupart des cas pratiques, un opérateur étiquette manuellement une base d’images de documents en parcourant séquentiellement les vignettes correspondant aux images. Cette tâche est très répétitive ; de plus le plan de classement définissant les noms et le nombre des classes est souvent incomplet, ce qui conduit à de nombreuses erreurs d’étiquetage. La question est alors d’évaluer si la qualité d’un lot étiqueté est suffisante pour qu’il soit accepté. Notre objectif est de faciliter et d’accélérer cette évaluation qui prend en pratique plus de 1, 5 fois le temps nécessaire à l’étiquetage lui-même. Nous proposons un outil interactif pour visualiser les données sous la forme d’un graphe. Ce graphe met en évidence les similarités entre documents ainsi que la qualité de l’étiquetage. Nous définissons des critères sur le graphe qui caractérisent les trois types d’erreur qu’un opérateur peut faire : une image est mal étiquetée, une classe devrait être découpée en sous-classes plus pertinentes, plusieurs classes devraient être fusionnées en une seule. Ceci nous permet de focali- ser l’attention de l’utilisateur sur de potentielles erreurs. Il peut alors plus facilement compter les erreurs d’étiquetage et valider (ou pas) une qualité d’étiquetage conforme aux attentes.
Fichier principal
Vignette du fichier
SDNRI_ex.pdf (1.46 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01286564 , version 1 (11-03-2016)

Identifiants

  • HAL Id : hal-01286564 , version 1

Citer

Romain Giot, Romain Bourqui, Nicholas Journet, Anne Vialard. Audit d’une base de documents étiquetée. Colloque International Francophone sur l’Écrit et le Document 2016 (CIFED), Mar 2016, Toulouse, France. pp.153-166. ⟨hal-01286564⟩
124 Consultations
54 Téléchargements

Partager

Gmail Facebook X LinkedIn More