Localisation de texte enfoui dans des bases d'images généralistes

Beatriz Marcotegui; T. Retornaz

Résumé

Nous assistons actuellement à une forte croissance des bases de données multimédia. Prenons comme exemple le site web de partage de photos Flickr [Fli]. Chaque jour, entre 3 et 5 millions de nouvelles photos sont rajoutées, avec un total de plusieurs milliards de photos disponibles. Sans moteur de recherche efficace, la manipulation d'une telle base est impossible à gérer. Les efforts de la communauté scientifique pour proposer des techniques d'indexation basées sur le contenu sont aussi croissants. Mais les méthodes développées se limitant pour l'essentiel à des descripteurs bas niveau (histogrammes couleur, points d'intérêt, descripteurs de texture, ...) donnent lieu au bien connu fossé sémantique, difficile à franchir. Le texte présent dans une image est souvent relié à son contenu sémantique : le texte superposé, comme les légendes des cartes postales, mais aussi le texte enfoui dans l'image, comme les enseignes des magasins, les panneaux de direction, les pancartes des manifestations, des meetings politiques, les inscriptions sur les maillots des sportifs, etc,... Plusieurs systèmes de localisation de texte enfoui sont apparus dans la littérature. Ces approches peuvent être classées en deux catégories : les approches texture et les approches par composante connexe. Les premières exploitent une information de texture en utilisant par exemple la transformée de Fourier ou la transformée en ondelettes pour localiser les zones candidates. Ces systèmes fonctionnent relativement bien pour le texte petit mais leur généralisation à des bases hétérogènes impose des contraintes d'alignement importantes et la mise en place de stratégies multiéchelle. Les deuxièmes commencent par segmenter l'image en composantes connexes en utilisant par exemple les techniques de quantification couleur ou de split-and-merge. Ensuite les composantes connexes sont regroupées en utilisant des contraintes d'alignement pour obtenir les zones de texte. Ces systèmes ont tendance à détecter de faux positifs dans les zones texturées. Le lecteur pourra trouver un état de l'art dans l'article de Jung [JUN 04]. Les bases de données utilisées par chaque système étant différentes, leur comparaison est difficile. Des campagnes d'évaluation ont vu le jour pour pallier ce manque de comparaison : ICDAR (International Conference on Document Analysis and Recognition) en 2003 [LUC 05] et en 2006 le projet ImagEval [Ima] du programme Technovision. ImagEval, campagne d'évaluation d'algorithmes d'indexation automatique d'images, a proposé la tâche 3 sur la localisation de texte enfoui. Le comité ImagEval, incluant des professionnels du domaine de l'édition, a constitué et annoté des bases de données extrêmement hétérogènes, selon les besoins des professionnels. Une base de 500 images avec une grande variété de textes en termes de taille, couleur, police (incluant des caractères manuscrits), sur des fonds complexes et avec les déformations caractéristiques du texte enfoui, i.e. perspective ou support non plan, a été utilisée pour l'évaluation. Nous avons construit notre système en nous appuyant sur les trois hypothèses suivantes : le texte est fait pour être lu (contrasté), il doit être constitué d'un ensemble de caractères et les caractères d'une même zone de texte ont des caractéristiques géométriques similaires. Il fait partie de la famille d'approches par composantes connexes. La segmentation initiale est réalisée à l'aide d'un puissant opérateur résiduel récemment introduit dans la littérature par Beucher [BEU 07], l'ouverture ultime. Cet opérateur est intrinsèquement multi-échelle et permet d'extraire les objets les plus contrastés d'une image sans information a priori. Ensuite les composantes connexes extraites sont filtrées par des techniques d'apprentissage et finalement regroupées en zones de texte en utilisant des contraintes d'alignement relaxées pour permettre la détection malgré les déformations classiques du texte enfoui. Notre système a été classé premier par le comité ImagEval pour la tâche de localisation de texte enfoui, avec un taux de détection d'environ 60% malgré la difficulté de la base de données.

Localisation de texte enfoui dans des bases d'images généralistes

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager