Text detection in images and videos for semantic indexing

Christian Wolf

Résumé

This work situates within the framework of image and video indexation. A way to include semantic knowledge into the indexing process is to use the text included in the images and video sequences. It is rich in information but easy to use. Existing methods for text detection are simple: most of them are based on texture estimation or edge detection followed by an accumulation of these characteristics. We suggest the usage of geometrical features very early in the detection chain: a first coarse detection calculates a text "probability" image. Afterwards, for each pixel we calculate geometrical properties of the eventual surrounding text rectangle, which are added to the features of the first step and fed into a support vector machine classifier. For the application to video sequences, we propose an algorithm which detects text on a frame by frame basis, tracking the found text rectangles across multiple frames and integrating the frame robustly into a single image. We tackle the character segmentation problem and suggest two different methods: the first algorithm maximizes a criterion based on the local contrast in the image. The second approach exploits a priori knowledge on the spatial binary distribution of the pixels. This prior knowledge in the form of a Markov random field model is integrated into Bayesian estimation framework in order to obtain an estimation of the original binary image.

Ce travail entre dans le cadre de l'indexation d'images et de vidéos. Les systèmes disponibles pour chercher dans les bases des documents audiovisuels travaillent sans connaissance, ils utilisent des méthodes de traitement d'image pour extraire des caractéristiques de bas niveau. Nous utilisons le texte présent dans les images et les vidéos. Les méthodes de détection de texte présentées dans la littérature sont très simples : la plupart sont basées sur l'estimation de la texture ou sur la détection des contours suivie par l'accumulation de ces caractéristiques. Nous proposons la prise en compte des caractéristiques géométriques directement dans la phase de détection. Une première détection grossière sert à calculer une image de probabilité de texte : ensuite, pour chaque pixel, nous calculons une estimation robuste des caractéristiques géométriques de la boite de texte de laquelle elle fait éventuellement partie. Ces caractéristiques sont rajoutées aux caractéristiques de la première étape de détection. L'apprentissage se fait avec un classificateur de type "Support Vector Machines". Pour la segmentation des caractères nous proposons deux algorithmes différents : le premier algorithme est basé sur la maximisation d'un critère de contraste ; la deuxième approche exploite des connaissances a priori sur la répartition locale des pixels "texte" et "non-texte" pour aider à la décision de seuillage. Un modèle statistique (en utilisant un modèle de champs de Markov) est élaboré et intégré dans un modèle bayésien d'estimation pour obtenir une estimation de l'image originale binaire.

Text detection in images and videos for semantic indexing

Détection de textes dans des images issues d'un flux vidéo pour l'indexation sémantique

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager