Apprentissage de la Cohérence Photométrique pour la Reconstruction de Formes Multi-Vues

Vincent Leroy; Jean-Sébastien Franco; Edmond Boyer

Communication Dans Un Congrès Année : 2018

Apprentissage de la Cohérence Photométrique pour la Reconstruction de Formes Multi-Vues

(1) , (1) , (1)

Vincent Leroy

Fonction : Auteur
PersonId : 14735
IdHAL : vincent-leroy1991

Capture and Analysis of Shapes in Motion

Jean-Sébastien Franco

Fonction : Auteur
PersonId : 554
IdHAL : jsfranco
ORCID : 0000-0002-4721-1441
IdRef : 108147827

Capture and Analysis of Shapes in Motion

Edmond Boyer

Fonction : Auteur
PersonId : 752316
IdHAL : edmond-boyer
ORCID : 0000-0002-1182-3729
IdRef : 108147797

Capture and Analysis of Shapes in Motion

Résumé

With the rise of augmented and virtual reality, estimating accurate shapes from multi-view RGB images is becoming an important task in computer vision. The dominant strategy employed for that purpose in the recent years relies on depth maps estimation followed by depth fusion, as depth maps prove to be efficient in recovering local surface details. Motivated by recent success of convolutional neural networks, we take this strategy a step further and present a novel solution for depth map estimation which consists in sweeping a volume along projected rays from a camera, and inferring surface presence probability at a point, seen by an arbitrary number of cameras. A strong motivation behind this work is to study the ability of learning based features to outperform traditional 2D features when estimating depth from multi-view cues. Especially with real life dynamic scenes, containing multiple moving subjects with complex surface details, scenarios where previous image based MVS methods fail to recover accurate details. Our results demonstrate this ability, showing that a CNN, trained on a standard static dataset, can help recovering surface details on dynamic scenes that are not visible to traditional 2D feature based methods. In addition, our evaluation also includes a comparison to existing reconstruction pipelines on the standard evaluation dataset we used to train our network with, showing that our solution performs on par or better than these approaches.

L'essor des technologies de réalité virtuelle et augmentée s'accompagne d'un besoin accru de contenus appropriés à ces technologies et à leurs méthodes de visualisation. En particulier, la capacité à produire des contenus réels visualisables en 3D devient prépondérante. Nous considérons dans cet article le problème de la reconstruction de scènes 3D dynamiques à partir d'images couleurs. Nous intéressons tout particulièrement à la possibilité de bénéficier des réseaux de neurones convolutifs dans ce processus de reconstruction pour l'améliorer de manière effective. Les méthodes les plus récentes de reconstruction multi-vues estiment des cartes de profondeur par vue et fusionnent ensuite ces cartes dans une forme implicite 3D. Une étape clé de ces méthodes réside dans l'estimation des cartes de profondeurs. Cette étape est traditionnellement effectuée par la recherche de correspondances multi-vues à l'aide de critères de photo-cohérence. Nous proposons ici d'apprendre cette fonction de photo-cohérence sur des exemples au lieu de la définir à travers la corrélation de descripteurs photométriques, comme c'est le cas dans la plupart des méthodes actuelles. L'intuition est que la corrélation de descripteurs d'images est intrinsèquement contrainte et limitée, et que les réseaux profonds ont la capacité d'apprendre des configurations plus larges. Nos résultats sur des données réelles démontrent que cela est le cas. Entraîné sur un jeu de données statiques standard, les réseaux de convolution nous permettent de récupérer des détails sur une forme en mouvement que les descripteurs d'images classiques ne peuvent extraire. Les évaluations comparatives sur ces données standards sont par ailleurs favorables à la méthode que nous proposons.

Mots clés

Multi-Camera Platform Multi-View Stereo Reconstruction Convolutional Neural Network

Reconstruction Multi Vues Réseaux de neurones convolutifs Systèmes Multi-caméras

Domaines

Vision par ordinateur et reconnaissance de formes [cs.CV]

Fichier principal

rfiap2018.pdf (10.61 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Vincent Leroy : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01857627

Soumis le : vendredi 17 août 2018-11:10:26

Dernière modification le : jeudi 4 avril 2024-21:40:19

Archivage à long terme le : dimanche 18 novembre 2018-12:36:07

Dates et versions

hal-01857627 , version 1 (17-08-2018)

Identifiants

HAL Id : hal-01857627 , version 1

Citer

Vincent Leroy, Jean-Sébastien Franco, Edmond Boyer. Apprentissage de la Cohérence Photométrique pour la Reconstruction de Formes Multi-Vues. RFIAP 2018 - Reconnaissance des Formes, Image, Apprentissage et Perception, Jun 2018, Marne la Vallée, France. ⟨hal-01857627⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UGA CNRS INRIA LJK LJK_GI LJK_GI_MORPHEO INRIA2

186 Consultations

133 Téléchargements

Apprentissage de la Cohérence Photométrique pour la Reconstruction de Formes Multi-Vues

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager