Deep Learning for Human Motion Analysis

Natalia Neverova

Résumé

The research goal of this work is to develop learning methods advancing automatic analysis and interpreting of human motion from different perspectives and based on various sources of information, such as images, video, depth, mocap data, audio and inertial sensors. For this purpose, we propose a several deep neural models and associated training algorithms for supervised classification and semi-supervised feature learning, as well as modelling of temporal dependencies, and show their efficiency on a set of fundamental tasks, including detection, classification, parameter estimation and user verification. First, we present a method for human action and gesture spotting and classification based on multi-scale and multi-modal deep learning from visual signals (such as video, depth and mocap data). Key to our technique is a training strategy which exploits, first, careful initialization of individual modalities and, second, gradual fusion involving random dropping of separate channels (dubbed ModDrop) for learning cross-modality correlations while preserving uniqueness of each modality-specific representation. Moving forward, from 1 to N mapping to continuous evaluation of gesture parameters, we address the problem of hand pose estimation and present a new method for regression on depth images, based on semi-supervised learning using convolutional deep neural networks, where raw depth data is fused with an intermediate representation in the form of a segmentation of the hand into parts. In separate but related work, we explore convolutional temporal models for human authentication based on their motion patterns. In this project, the data is captured by inertial sensors (such as accelerometers and gyroscopes) built in mobile devices. We propose an optimized shift-invariant dense convolutional mechanism and incorporate the discriminatively-trained dynamic features in a probabilistic generative framework taking into account temporal characteristics. Our results demonstrate, that human kinematics convey important information about user identity and can serve as a valuable component of multi-modal authentication systems.

L'objectif de ce travail est de développer des méthodes avancées d'apprentissage pour l’analyse et l'interprétation automatique du mouvement humain à partir de sources d'information diverses, telles que les images, les vidéos, les cartes de profondeur, les données de type “MoCap” (capture de mouvement), les signaux audio et les données issues de capteurs inertiels. A cet effet, nous proposons plusieurs modèles neuronaux et des algorithmes d'entraînement associés pour l’apprentissage supervisé et semi-supervisé de caractéristiques. Nous proposons des approches de modélisation des dépendances temporelles, et nous montrons leur efficacité sur un ensemble de tâches fondamentales, comprenant la détection, la classification, l’estimation de paramètres et la vérification des utilisateurs (la biométrie). Premièrement, nous présentons une méthode pour la détection, la classification et la localisation de gestes humains basée sur le Deep Learning multi-échelle et multi-modal à partir de plusieurs signaux. Un aspect clé de notre technique est une nouvelle stratégie d'entraînement, exploitant, d’une part, une initialisation méticuleuse des modalités individuelles et, d’autre part, une fusion progressive impliquant l’annulation aléatoire (“ModDrop”) de modalités. Cela permet l'apprentissage efficace des corrélations inter-modalités tout en préservant le caractère unique de la représentation spécifique à chaque modalité. En explorant différentes stratégies de fusion, nous montrons que la fusion des modalités à plusieurs échelles spatiales et temporelles conduit à une augmentation significative des taux de reconnaissance, ce qui permet au modèle de compenser les erreurs des classifieurs individuels et le bruit dans les différents canaux. En outre, la technique proposée assure la robustesse du classifieur face à la perte éventuelle d’un ou de plusieurs canaux. Nous démontrons l’extension de la méthode de fusion proposée aux modalités de nature arbitraire en introduisant un canal audio supplémentaire. Dans un deuxième temps nous abordons le problème de l’estimation de la posture de la main en présentant une nouvelle méthode de régression à partir d’images de profondeur. Basée sur l'apprentissage semi-supervisé à l’aide de réseaux de neurones profonds, la méthode procède par une fusion des données de profondeur brutes et d’une représentation intermédiaire sous forme d'une carte de segmentation de la main en parties. Nous argumentons que cette représentation intermédiaire contient des informations topologiques pertinentes, fournissant des indices utiles pour l’estimation des positions des articulations de la main. Le mapping fonctionnel entre cartes de profondeur et cartes de segmentation des cartes est appris de manière semi-supervisée et de manière faiblement supervisée à partir de deux ensembles de données : un jeu de données synthétiques créé par un pipeline de rendu, comprenant une annotation dense des pixels; et un ensemble de données réelles comprenant une annotation des positions des articulations, mais sans cartes de segmentation. Dernièrement, dans le cadre d’un projet séparé (mais lié thématiquement), nous explorons des modèles temporels pour l'authentification automatique des utilisateurs de smartphones à partir de leurs habitudes de tenir, de bouger et de déplacer leurs téléphones. Dans ce contexte, les données sont acquises par des capteurs inertiels embarqués dans les appareils mobiles. Après avoir exploré plusieurs architectures neuronales (RNN, LSTM, Clockwork RNN) pour l'apprentissage efficace des extracteurs de caractéristiques, nous proposons une variante efficace et invariante des Clockwork RNN, nommée Dense Clockwork RNNs (DCWRNN). Nos résultats démontrent que le mouvement humain véhicule des informations pertinentes sur l'identité des utilisateurs; ces informations peuvent servir comme une composante précieuse pour les systèmes automatiques d'authentification multi-modale.

Deep Learning for Human Motion Analysis

Apprentissage automatique de représentations profondes pour l’analyse du mouvement humain

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager