Information Access in mobile environment for museum visits - Deep Neraul Networks for Instance and Gesture Recognition.
Accès à de l'information en mobilité par l'image pour la visite de Musées Réseaux profonds pour l'identification de gestes et d'objets
Résumé
This thesis is part of the GUIMUTEIC project, which aim is to equip museum tourist with
an audio-guide enhanced by a camera.Thisthesis adressthe problem of information access
in mobile environment, by automaticaly providing information about museum artefacts.
To be able to give this information, we need to know when the visitor desire guidance, and
what he is looking at, to give the correct response.
This raises issues of identification of points of interest, to determine the context, and
identification of user gestures, to meet his demands. As part of our project, the visitor is
equipped with an embedded camera.The goal isto provide a solutionto help withthe visit,
developing vision methods for object identification, and gesture detection in first-person
videos.
We propose in this thesis a study of the feasibility and the interest of the assistance to
the visit, as well as the relevance of the gestures in the context of the interaction with an
embedded system.We propose a new approach for objects identificationthanksto siamese
neural networks to learn images similarity and define regions of interest. We are also
exploring the use of small networks for gesture recognition in mobility. We present for this an
architecture using new types of convolution blocks, to reduce the number of parameters of
the network and allow its use on mobile processor. To evaluate our proposals, we rely on
several corpus of image search and gestures, specificaly designed to match the constraints
of the project.
Cette thèse adresse le problème d’accès à l’information en mobilité. On s’intéresse à comment
rendre l’information à propos des oeuvres accessible automatiquement aux visiteurs
de lieux touristiques. Elle s’inscrit dans le cadre du projet GUIMUTEIC, qui vise à équiper
les visiteurs de musées d’un outil d’aide à l’accès à l’information en mobilité. Être capable
de déterminer si le visiteur désire avoir accès à l’information signifie identifier le contexte
autour de lui, afin de fournir une réponse adaptée, et réagir à ses actions.
Ce travail est lié aux problématiques d’identification de points d’intérêts, pour déterminer
le contexte, et d’identification de gestes des utilisateurs, pour répondre à leurs demandes.
Dans le cadre du notre projet, le visiteur est donc équipé d’une caméra embarquée.
L’objectif est de fournir une solution à l’aide à la visite, en développant des méthodes de vision
pour l’identification d’objet, et de détection de gestes dans les vidéos à la première
personne.
Nous proposons dans cette thèse une étude de la faisabilité et de l’intérêt de l’aide à la visite,
ainsi que de la pertinence des gestes dans le cadre de l’interaction avec un système embarqué.
Nous définissons une nouvelle approche pour l’identification d’objets grâce à des
réseaux de neurones profonds siamois pour l’apprentissage de similarité entre les images,
avec apprentissage des régions d’intérêt dans l’image. Nous explorons également l’utilisation
de réseaux à taille réduite pour le détection de gestes en mobilité. Nous présentons
pour cela une architecture utilisant de nouveaux types de bloc de convolutions, pour réduire
le nombre de paramètres du réseau et permettre son utilisation sur processeur mobile.
Pour évaluer nos propositions, nous nous appuyons sur plusieurs corpus de recherche
d’image et de gestes, créés spécialement pour le projet.
Domaines
Recherche d'information [cs.IR]
Loading...