xyzNet: Towards Machine Learning Camera Relocalization by Using a Scene Coordinate Prediction Network - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2018

xyzNet: Towards Machine Learning Camera Relocalization by Using a Scene Coordinate Prediction Network

xyzNet : Vers une relocalisation de caméras basée apprentissage automatique par l'utilisation d'un réseau de prédiction de coordonnées de scène

Résumé

Camera relocalization is a common problem in several applications such as augmented reality or robot navigation. Especially, augmented reality requires fast, accurate and robust camera localization. However, it is still challenging to have a both real-time and accurate method. In this paper, we present our hybrid method combing machine learning approach and geometric approach for real-time camera relocalization from a single RGB image. We propose a light Convolutional Neural Network (CNN) called xyzNet to efficiently and robustly regress 3D world coordinates of key-points in an image. Then, the geometric information about 2D-3D correspondences allows the removal of ambiguous predictions and the calculation of more accurate camera pose. Moreover, we show favorable results compared to previous machine learning based approaches about the accuracy and the performance of our method on different datasets as well as the capacity to address challenges concerning dynamic scene.
La relocalisation de caméra est un problème courant dans plusieurs applications telles que la réalité augmentée ou la navigation de robots. En particulier, la réalité augmentée nécessite une localisation rapide, précise et robuste de la caméra. Cependant, il est encore difficile d'avoir une méthode à la fois précise et temps réel. Dans cet article, nous présentons notre méthode hybride combinant une approche d'apprentissage machine et une approche géométrique pour la relocalisation de caméra en temps réel à partir d'une seule image RGB. Nous proposons un réseau neuronal convolutif léger (CNN) appelé xyzNet pour régresser de manière efficace et robuste les coordonnées monde 3D des points caractéristiques d'une image. Ensuite, les informations géométriques sur les correspondances 2D-3D permettent d'éliminer les prédictions ambiguës et de calculer des poses de caméra plus précises. De plus, nous montrons des résultats favorables par rapport aux approches de l'état de l'art basées sur l'apprentissage automatique en ce qui concerne la précision et la performance de notre méthode sur différents ensembles de données ainsi que la capacité à relever les défis concernant la scène dynamique.
Fichier principal
Vignette du fichier
ismarpaper_postprint.pdf (1.88 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02048735 , version 1 (08-03-2019)

Identifiants

Citer

Nam-Duong Duong, Amine Kacete, Catherine Sodalie, Pierre-Yves Richard, Jérôme Royan. xyzNet: Towards Machine Learning Camera Relocalization by Using a Scene Coordinate Prediction Network. iEEE International Symposium for Mixed and Augmented Reality 2018, Oct 2018, Munich, Germany. ⟨10.1109/ISMAR-Adjunct.2018.00080⟩. ⟨hal-02048735⟩
153 Consultations
686 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More