Graphics Recognition using Spatial Relations and Shape Analysis - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2011

Graphics Recognition using Spatial Relations and Shape Analysis

Reconnaissance graphique en utilisant les relations spatiales et analyse de la forme

Résumé

In the current state-of-the-art, symbol recognition usually means recognising isolated symbols. However, isolated symbol recognition methods are not always suitable for solving real-world problems. In case of composite documents that contain textual and graphical elements, one needs to be able to extract and formalise the links that exist between the images and the surrounding text, in order to exploit the information embedded in those documents. Related to this context, we first introduce a method for graphics recognition based on dynamic programming matching of the Radon features. This method allows to exploit the Radon Transform property to include both boundary and internal structure of shapes without compressing the pattern representation into a single vector that may miss information. The method outperforms all major set of state-of-the-art of shape descriptors but remains mainly suited for isolated symbol recognition only. We therefore integrate it in a completely new approach for symbol recognition based on the spatio-structural description of a ‘vocabulary’ of extracted visual primitives. The method is based on spatial relations between pairs of labelled vocabulary types (some of which can be characterised with the previously mentioned descriptor), which are further used as a basis for building an attributed relational graph (ARG) to describe symbols. Thanks to our labelling of attribute types, we avoid the general NP-hard graph matching problem. We provide a comprehensive comparison with other spatial relation models as well as state-of-the-art approaches for graphics recognition and prove that our approach effectively combines structural and statistical descriptors together and outperforms them significantly. In the final part of this thesis, we present a Bag-Of-Features (BOFs) approach using spatial relations where every possible pair of individual visual primitives is indexed by its topological configuration and the visual type of its components. This provides a way to retrieve isolated symbols as well as significant known parts of symbols by applying either an isolated symbol as a query or a collection of relations be- tween the important visual primitives. Eventually, it opens perspectives towards natural language based symbol recognition process.
Dans l’état de l’art actuel, la reconnaissance de symboles signifie généralement la reconnaissance des symboles isolés. Cependant, ces méthodes de reconnaissance de symboles isolmés ne sont pas toujours adaptés pour résoudre les problèmes du monde réel. Dans le cas des documents composites qui contiennent des éléments textuels et graphiques, on doit être capable d’extraire et de formaliser les liens qui existent entre les images et le texte environnant, afin d’exploiter les informations incorporées dans ces documents. Liés à ce contexte, nous avons d’abord introduit une méthode de reconnaissance graphique basée sur la programmation dynamique et la mise en correspondance de caractéristiques issues de la transormée de Radon. Cette méthode permet d’exploiter la propriété de cette transformée pour inclure à la fois le contour et la structure interne des formes sans utiliser de techniques de compression de la représentation du motif dans un seul vecteur et qui pourrait passer à côté d’informations importantes. La méthode surpasse en performances les descripteurs de forme de l’état de l’art, mais reste principalement adapté pour la reconnaissance de symboles isolés seulement. Nous l’avons donc intégrée dans une approche complètement nouvelle pour la reconnaissance de symboles basé sur la description spatio-structurelle d’un «vocabulaire» de primitives visuelles extraites. La méthode est basée sur les relations spatiales entre des paires de types étiquetés de ce vocabulaire (dont certains peuvent être caractérisés avec le descripteur mentionné précédemment), qui sont ensuite utilisées comme base pour construire un graphe relationnel attribué (ARG) qui décrit des symboles. Grâce à notre étiquetage des types d’attribut, nous évitons le problème classique NP-difficile d’appariement de graphes. Nous effectuons une comparaison exhaustive avec d’autres modèles de relations spatiales ainsi qu’avec l’état de l’art des approches pour la reconnaissance des graphismes afin de prouver que notre approche combine efficacement les descripteurs statistiques structurels et globaux et les surpasse de manière significative. Dans la dernière partie de cette thèse, nous présentons une approche de type sac de caractéristiques utilisant les relations spatiales, où chaque paire possible primitives visuelles est indexée par sa configuration topologique et les types visuels de ses composants. Ceci fournit un moyen de récupérer les symboles isolés ainsi que d’importantes parties connues de symboles en appliquant soit un symbole isolée comme une requêten soit une collection de rela- tions entre les primitives visuelles. Finalement, ceci ouvre des perspectives vers des processus de reconnaissance de symboles fondés sur le langage naturel.
Fichier principal
Vignette du fichier
INPL_2011_KC_S.pdf (4.29 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-01749508 , version 2 (02-08-2016)
tel-01749508 , version 1 (29-03-2018)

Identifiants

  • HAL Id : tel-01749508 , version 2

Citer

K.C. Santosh. Graphics Recognition using Spatial Relations and Shape Analysis. Computer Vision and Pattern Recognition [cs.CV]. Institut National Polytechnique de Lorraine, 2011. English. ⟨NNT : 2011INPL096N⟩. ⟨tel-01749508v2⟩
216 Consultations
397 Téléchargements

Partager

Gmail Facebook X LinkedIn More