Accès à de l'information en mobilité par l'image pour la visite de Musées
Réseaux profonds pour l'identification de gestes et d'objets

Maxime Portaz

Résumé

This thesis is part of the GUIMUTEIC project, which aim is to equip museum tourist with an audio-guide enhanced by a camera.Thisthesis adressthe problem of information access in mobile environment, by automaticaly providing information about museum artefacts. To be able to give this information, we need to know when the visitor desire guidance, and what he is looking at, to give the correct response. This raises issues of identification of points of interest, to determine the context, and identification of user gestures, to meet his demands. As part of our project, the visitor is equipped with an embedded camera.The goal isto provide a solutionto help withthe visit, developing vision methods for object identification, and gesture detection in first-person videos. We propose in this thesis a study of the feasibility and the interest of the assistance to the visit, as well as the relevance of the gestures in the context of the interaction with an embedded system.We propose a new approach for objects identificationthanksto siamese neural networks to learn images similarity and define regions of interest. We are also exploring the use of small networks for gesture recognition in mobility. We present for this an architecture using new types of convolution blocks, to reduce the number of parameters of the network and allow its use on mobile processor. To evaluate our proposals, we rely on several corpus of image search and gestures, specificaly designed to match the constraints of the project.

Cette thèse adresse le problème d’accès à l’information en mobilité. On s’intéresse à comment rendre l’information à propos des oeuvres accessible automatiquement aux visiteurs de lieux touristiques. Elle s’inscrit dans le cadre du projet GUIMUTEIC, qui vise à équiper les visiteurs de musées d’un outil d’aide à l’accès à l’information en mobilité. Être capable de déterminer si le visiteur désire avoir accès à l’information signifie identifier le contexte autour de lui, afin de fournir une réponse adaptée, et réagir à ses actions. Ce travail est lié aux problématiques d’identification de points d’intérêts, pour déterminer le contexte, et d’identification de gestes des utilisateurs, pour répondre à leurs demandes. Dans le cadre du notre projet, le visiteur est donc équipé d’une caméra embarquée. L’objectif est de fournir une solution à l’aide à la visite, en développant des méthodes de vision pour l’identification d’objet, et de détection de gestes dans les vidéos à la première personne. Nous proposons dans cette thèse une étude de la faisabilité et de l’intérêt de l’aide à la visite, ainsi que de la pertinence des gestes dans le cadre de l’interaction avec un système embarqué. Nous définissons une nouvelle approche pour l’identification d’objets grâce à des réseaux de neurones profonds siamois pour l’apprentissage de similarité entre les images, avec apprentissage des régions d’intérêt dans l’image. Nous explorons également l’utilisation de réseaux à taille réduite pour le détection de gestes en mobilité. Nous présentons pour cela une architecture utilisant de nouveaux types de bloc de convolutions, pour réduire le nombre de paramètres du réseau et permettre son utilisation sur processeur mobile. Pour évaluer nos propositions, nous nous appuyons sur plusieurs corpus de recherche d’image et de gestes, créés spécialement pour le projet.

Information Access in mobile environment for museum visits - Deep Neraul Networks for Instance and Gesture Recognition.

Accès à de l'information en mobilité par l'image pour la visite de Musées Réseaux profonds pour l'identification de gestes et d'objets

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager