Acquisition 3D des gestes par vision artificielle et restitution virtuelle - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2011

3D motion capture by computer vision and virtual rendering

Acquisition 3D des gestes par vision artificielle et restitution virtuelle

Résumé

Les environnements virtuels collaboratifs permettent à plusieurs utilisateurs d‟interagir à distance par Internet. Ils peuvent partager une impression de téléprésence en animant à distance un avatar qui les représente. Toutefois, le contrôle de cet avatar peut être difficile et mal restituer les gestes de l‟utilisateur. Ce travail vise à animer l‟avatar à partir d‟une acquisition 3D des gestes de l‟utilisateur par vision monoculaire en temps réel, et à rendre la téléprésence virtuelle possible au moyen d‟un PC grand public équipé d‟une webcam. L‟approche suivie consiste à recaler un modèle 3D articulé de la partie supérieure du corps humain sur une séquence vidéo. Ceci est réalisé en cherchant itérativement la meilleure correspondance entre des primitives extraites du modèle 3D d‟une part et de l‟image d‟autre part. Le recalage en deux étapes peut procéder sur les régions, puis sur les contours. La première contribution de cette thèse est une méthode de répartition des itérations de calcul qui optimise la robustesse et la précision sous la contrainte du temps-réel. La difficulté majeure pour le suivi 3D à partir d‟images monoculaires provient des ambiguïtés 3D/2D et de l‟absence d‟information de profondeur. Le filtrage particulaire est désormais une approche classique pour la propagation d‟hypothèses multiples entre les images. La deuxième contribution de cette thèse est une amélioration du filtrage particulaire pour le recalage 3D/2D en un temps de calcul limité par des heuristiques, dont la contribution est démontée expérimentalement. Un paramétrage de l‟attitude des bras par l‟extrémité de leur chaîne cinématique est proposé qui permet de mieux modéliser l‟incertitude sur la profondeur. Enfin, l‟évaluation est accélérée par calcul sur GPU. En conclusion, l‟algorithme proposé permet un suivi 3D robuste en temps-réel à partir d‟une webcam pour une grande variété des gestes impliquant des occlusions partielles et des mouvements dans la direction de la profondeur.
Networked 3D virtual environments allow multiple users to interact with each other over the Internet. Users can share some sense of telepresence by remotely animating an avatar that represents them. However, avatar control may be tedious and still render user gestures poorly. This work aims at animating a user‟s avatar from real time 3D motion capture by monoscopic computer vision, thus allowing virtual telepresence to anyone using a personal computer with a webcam. The approach followed consists of registering a 3D articulated upper-body model to a video sequence. This involves searching iteratively for the best match between features extracted from the 3D model and from the image. A two-step registration process matches regions and then edges. The first contribution of this thesis is a method of allocating computing iterations under real-time constrain that achieves optimal robustness and accuracy. The major issue for robust 3D tracking from monocular images is the 3D/2D ambiguities that result from the lack of depth information. Particle filtering has become a popular framework for propagating multiple hypotheses between frames. As a second contribution, this thesis enhances particle filtering for 3D/2D registration under limited computation constrains with a number of heuristics, the contribution of which is demonstrated experimentally. A parameterization of the arm pose based on their end-effector is proposed to better model uncertainty in the depth direction. Finally, evaluation is accelerated by computation on GPU. In conclusion, the proposed algorithm is demonstrated to provide robust real-time 3D body tracking from a single webcam for a large variety of gestures including partial occlusions and motion in the depth direction.
Fichier principal
Vignette du fichier
TheseDavidGOMEZ.pdf (10.85 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-03094152 , version 1 (04-01-2021)

Identifiants

  • HAL Id : tel-03094152 , version 1

Citer

David Antonio Gómez Jáuregui. Acquisition 3D des gestes par vision artificielle et restitution virtuelle. Vision par ordinateur et reconnaissance de formes [cs.CV]. Télécom SudParis; Universite d’Evry-Val d’Essonne, 2011. Français. ⟨NNT : ⟩. ⟨tel-03094152⟩
61 Consultations
18 Téléchargements

Partager

Gmail Facebook X LinkedIn More