3D motion capture by computer vision and virtual rendering
Acquisition 3D des gestes par vision artificielle et restitution virtuelle
Résumé
Les environnements virtuels collaboratifs permettent à plusieurs utilisateurs d‟interagir à distance par
Internet. Ils peuvent partager une impression de téléprésence en animant à distance un avatar qui les
représente. Toutefois, le contrôle de cet avatar peut être difficile et mal restituer les gestes de
l‟utilisateur. Ce travail vise à animer l‟avatar à partir d‟une acquisition 3D des gestes de l‟utilisateur
par vision monoculaire en temps réel, et à rendre la téléprésence virtuelle possible au moyen d‟un PC
grand public équipé d‟une webcam.
L‟approche suivie consiste à recaler un modèle 3D articulé de la partie supérieure du corps humain sur
une séquence vidéo. Ceci est réalisé en cherchant itérativement la meilleure correspondance entre des
primitives extraites du modèle 3D d‟une part et de l‟image d‟autre part. Le recalage en deux étapes
peut procéder sur les régions, puis sur les contours. La première contribution de cette thèse est une
méthode de répartition des itérations de calcul qui optimise la robustesse et la précision sous la
contrainte du temps-réel.
La difficulté majeure pour le suivi 3D à partir d‟images monoculaires provient des ambiguïtés 3D/2D
et de l‟absence d‟information de profondeur. Le filtrage particulaire est désormais une approche
classique pour la propagation d‟hypothèses multiples entre les images. La deuxième contribution de
cette thèse est une amélioration du filtrage particulaire pour le recalage 3D/2D en un temps de calcul
limité par des heuristiques, dont la contribution est démontée expérimentalement. Un paramétrage de
l‟attitude des bras par l‟extrémité de leur chaîne cinématique est proposé qui permet de mieux
modéliser l‟incertitude sur la profondeur. Enfin, l‟évaluation est accélérée par calcul sur GPU.
En conclusion, l‟algorithme proposé permet un suivi 3D robuste en temps-réel à partir d‟une webcam
pour une grande variété des gestes impliquant des occlusions partielles et des mouvements dans la
direction de la profondeur.
Networked 3D virtual environments allow multiple users to interact with each other over the Internet.
Users can share some sense of telepresence by remotely animating an avatar that represents them.
However, avatar control may be tedious and still render user gestures poorly. This work aims at
animating a user‟s avatar from real time 3D motion capture by monoscopic computer vision, thus
allowing virtual telepresence to anyone using a personal computer with a webcam.
The approach followed consists of registering a 3D articulated upper-body model to a video sequence.
This involves searching iteratively for the best match between features extracted from the 3D model
and from the image. A two-step registration process matches regions and then edges. The first
contribution of this thesis is a method of allocating computing iterations under real-time constrain that
achieves optimal robustness and accuracy.
The major issue for robust 3D tracking from monocular images is the 3D/2D ambiguities that result
from the lack of depth information. Particle filtering has become a popular framework for propagating
multiple hypotheses between frames. As a second contribution, this thesis enhances particle filtering
for 3D/2D registration under limited computation constrains with a number of heuristics, the
contribution of which is demonstrated experimentally. A parameterization of the arm pose based on
their end-effector is proposed to better model uncertainty in the depth direction. Finally, evaluation is
accelerated by computation on GPU.
In conclusion, the proposed algorithm is demonstrated to provide robust real-time 3D body tracking
from a single webcam for a large variety of gestures including partial occlusions and motion in the
depth direction.
Origine : Fichiers produits par l'(les) auteur(s)