Lightweight convolutional neural network for real-time 3D object detection in road and railway environments - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Journal of Real-Time Image Processing Année : 2022

Lightweight convolutional neural network for real-time 3D object detection in road and railway environments

Résumé

For smart mobility, and autonomous vehicles (AV), it is necessary to have a very precise perception of the environment to guarantee reliable decision-making, and to be able to extend the results obtained for the road sector to other areas such as rail. To this end, we introduce a new single-stage monocular real-time 3D object detection convolutional neural network (CNN) based on YOLOv5, dedicated to smart mobility applications for both road and rail environments. To perform the 3D parameter regression, we replace YOLOv5’s anchor boxes with our hybrid anchor boxes. Our method is available in different model sizes such as YOLOv5: small, medium, and large. The new model that we propose is optimized for real-time embedded constraints (lightweight, speed, and accuracy) that takes advantage of the improvement brought by split attention (SA) convolutions called small split attention model (Small-SA). To validate our CNN model, we also introduce a new virtual dataset for both road and rail environments by leveraging the video game Grand Theft Auto V (GTAV). We provide extensive results of our different models on both KITTI and our own GTAV datasets. Through our results, we show that our method is the fastest available 3D object detection with accuracy results close to state-of-the-art methods on the KITTI road dataset. We further demonstrate that the pre-training process on our GTAV virtual dataset improves the accuracy on real datasets such as KITTI, thus allowing our method to obtain an even greater accuracy than state-of-the-art approaches with 16.16% 3D average precision on hard car detection with inference time of 11.1 ms/image on an RTX 3080 GPU.
Pour la mobilité intelligente, et les véhicules autonomes (VA), il est nécessaire d'avoir une perception très précise de l'environnement pour garantir une prise de décision fiable, et de pouvoir étendre les résultats obtenus pour le secteur routier à d'autres domaines comme le ferroviaire. À cette fin, nous introduisons un nouveau réseau de neurones convolutif (CNN) monoculaire de détection d'objets 3D en temps réel basé sur YOLOv5, dédié aux applications de mobilité intelligente pour les environnements routiers et ferroviaires. Pour effectuer la régression des paramètres 3D, nous remplaçons les boîtes d'ancrage de YOLOv5 par nos boîtes d'ancrage hybrides. Notre méthode est disponible dans différentes tailles de modèles comme YOLOv5 : petit, moyen et grand. Le nouveau modèle que nous proposons est optimisé pour les contraintes de l'embarqué en temps réel (légèreté, vitesse et précision) qui tire profit de l'amélioration apportée par les convolutions d'attention fractionnée (SA) appelé petit modèle d'attention fractionnée (Small-SA). Pour valider notre modèle CNN, nous introduisons également un nouvel ensemble de données virtuelles pour les environnements routiers et ferroviaires en exploitant le jeu vidéo Grand Theft Auto V (GTAV). Nous fournissons des résultats détaillés de nos différents modèles à la fois sur KITTI et sur nos propres jeux de données GTAV. Nous montrons que notre méthode est la plus rapide pour la détection d'objets en 3D, avec une précision proche de celle des méthodes les plus avancées sur le jeu de données KITTI. Nous démontrons également que le processus de pré-entraînement sur notre jeu de données virtuel GTAV améliore la précision sur les jeux de données réels tels que KITTI, permettant ainsi à notre méthode d'obtenir une précision encore plus grande que les approches de l'état de l'art avec 16,16% de précision moyenne 3D sur la détection de voitures avec un temps d'inférence de 11,1 ms/image sur un GPU RTX 3080.

Dates et versions

hal-03592337 , version 1 (01-03-2022)

Identifiants

Citer

A. Mauri, Redouane Khemmar, B. Decoux, M. Haddad, Rémi Boutteau. Lightweight convolutional neural network for real-time 3D object detection in road and railway environments. Journal of Real-Time Image Processing, 2022, ⟨10.1007/s11554-022-01202-6⟩. ⟨hal-03592337⟩
72 Consultations
0 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More