Deep learning for action recognition in videos

Ahmed Mazari

Thèse Année : 2020

Deep learning for action recognition in videos

Apprentissage profond pour la reconnaissance d’actions en vidéos

(1)

Ahmed Mazari

Fonction : Auteur
PersonId : 1080646

Machine Learning and Information Access

Résumé

Nowadays, video contents are ubiquitous through the popular use of internet and smartphones, as well as social media. Many daily life applications such as video surveillance and video captioning, as well as scene understanding require sophisticated technologies to process video data. It becomes of crucial importance to develop automatic means to analyze and to interpret the large amount of available video data. In this thesis, we are interested in video action recognition, i.e. the problem of assigning action categories to sequences of videos. This can be seen as a key ingredient to build the next generation of vision systems. It is tackled with AI frameworks, mainly with ML and Deep ConvNets. Current ConvNets are increasingly deeper, data-hungrier and this makes their success tributary of the abundance of labeled training data. ConvNets also rely on (max or average) pooling which reduces dimensionality of output layers (and hence attenuates their sensitivity to the availability of labeled data); however, this process may dilute the information of upstream convolutional layers and thereby affect the discrimination power of the trained video representations, especially when the learned action categories are fine-grained.

De nos jours, les contenus vidéos sont omniprésents grâce à Internet et les smartphones, ainsi que les médias sociaux. De nombreuses applications de la vie quotidienne, telles que la vidéo surveillance et la description de contenus vidéos, ainsi que la compréhension de scènes visuelles, nécessitent des technologies sophistiquées pour traiter les données vidéos. Il devient nécessaire de développer des moyens automatiques pour analyser et interpréter la grande quantité de données vidéo disponibles. Dans cette thèse, nous nous intéressons à la reconnaissance d'actions dans les vidéos, c.a.d au problème de l'attribution de catégories d'actions aux séquences vidéos. Cela peut être considéré comme un ingrédient clé pour construire la prochaine génération de systèmes visuels. Nous l'abordons avec des méthodes d'intelligence artificielle, sous le paradigme de l'apprentissage automatique et de l'apprentissage profond, notamment les réseaux de neurones convolutifs. Les réseaux de neurones convolutifs actuels sont de plus en plus profonds, plus gourmands en données et leur succès est donc tributaire de l'abondance de données d'entraînement étiquetées. Les réseaux de neurones convolutifs s'appuient également sur le pooling qui réduit la dimensionnalité des couches de sortie (et donc atténue leur sensibilité à la disponibilité de données étiquetées).

Mots clés

Deep Video Representations Multiple Aggregation Learning Hierarchical Pooling Graphs Construction Graph Pooling and Convolution Geometric Deep Learning

Apprentissage de représentations vidéos Apprentissage d'agrégations multiples Pooling hiérarchique Construction de graphes Pooling et Convolution sur les graphes Apprentissage profond géométrique

Domaines

Traitement des images [eess.IV] Apprentissage [cs.LG]

Fichier principal

Thèse_Ahmed_MAZARI.pdf (26.98 Mo)

Origine : Version validée par le jury (STAR)

Ahmed Mazari : Connectez-vous pour contacter le contributeur

https://hal.science/tel-02984082

Soumis le : vendredi 30 octobre 2020-16:17:38

Dernière modification le : samedi 7 octobre 2023-21:36:22

Archivage à long terme le : dimanche 31 janvier 2021-18:41:22

Dates et versions

tel-02984082 , version 2 (30-10-2020)

tel-02984082 , version 1 (19-10-2021)

Identifiants

HAL Id : tel-02984082 , version 2

Citer

Ahmed Mazari. Deep learning for action recognition in videos. Image Processing [eess.IV]. Sorbonne Université, 2020. English. ⟨NNT : 2020SORUS171⟩. ⟨tel-02984082v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS STAR LIP6 SORBONNE-UNIVERSITE THESES-SU SU-SCIENCES

1068 Consultations

116 Téléchargements

Deep learning for action recognition in videos

Apprentissage profond pour la reconnaissance d’actions en vidéos

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager