Localisation sonore par attention et apprentissage profond semi-supervisé

Marc Moreaux; Michaël Garcia Ortiz; Isabelle Ferrané; Frédéric Lerasle

Communication Dans Un Congrès Année : 2018

Localisation sonore par attention et apprentissage profond semi-supervisé

(1, 2, 3) , (3) , (1) , (2)

1
2
3

Marc Moreaux

Fonction : Auteur

Équipe Structuration, Analyse et MOdélisation de documents Vidéo et Audio

Équipe Robotique, Action et Perception

SoftBank Robotics Europe

Michaël Garcia Ortiz

Fonction : Auteur

SoftBank Robotics Europe

Isabelle Ferrané

Fonction : Auteur
PersonId : 734607
IdHAL : isabelle-ferrane
ORCID : 0000-0002-0861-5224
IdRef : 149338031

Équipe Structuration, Analyse et MOdélisation de documents Vidéo et Audio

Frédéric Lerasle

Fonction : Auteur
PersonId : 174214
IdHAL : frederic-lerasle
ORCID : 0000-0001-9670-5491
IdRef : 117016888

Équipe Robotique, Action et Perception

Résumé

Afin d’interagir avec l’humain et son environnement, un robot de service doit pouvoir percevoir des informations visuelles et sonores de la scène qu’il observe ou à laquelle il participe. Il doit notamment être capable de repérer des éléments saillants dans les différents signaux captés : localisation spatiale dans une image ou temporelle dans un flux audio. L’aspect "datavore"des méthodes dites d’apprentissage profond, et le coût considérable de l’annotation des données, militent pour l’utilisation de méthodes semi-supervisées, capables d’une part d’extraire de l’information de manière supervisée, et d’autre part de prédire l’organisation spatiale ou temporelle des événements présents dans le signal traité. Dans le domaine de la vision, ce concept a été utilisé à plusieurs reprises pour effectuer de la localisation spatiale d’objet ou d’activité sur des images [1, 2, 3] à partir des signaux 2D bruts (pixels). Au niveau audio, la tendance consistant à s’affranchir des représentations bas niveau de type MFCC [4] a fait son apparition, permettant ainsi un traitement direct du signal audio brut [5, 6, 7, 8] et laissant aux réseaux de neurones la tâche d’extraire les caractéristiques représentatives optimales des signaux traités. Dans cet article,nous proposons un réseau convolutionnel, associé à un mécanisme d’attention, permettant l’exploitation du signal audio brut,afin non seulement de classifier, mais aussi de localiser temporellement un événement sonore présent dans le flux traité, et ce de manière semi-supervisé.

Mots clés

Localisation sonore Robot de service

Domaines

Robotique [cs.RO]

Fichier principal

moreaux_22455.pdf (221.68 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Open Archive Toulouse Archive Ouverte (OATAO) : Connectez-vous pour contacter le contributeur

https://hal.science/hal-02289999

Soumis le : mardi 17 septembre 2019-11:59:15

Dernière modification le : lundi 20 novembre 2023-11:44:22

Archivage à long terme le : samedi 8 février 2020-21:50:52

Dates et versions

hal-02289999 , version 1 (17-09-2019)

Identifiants

HAL Id : hal-02289999 , version 1
OATAO : 22455

Citer

Marc Moreaux, Michaël Garcia Ortiz, Isabelle Ferrané, Frédéric Lerasle. Localisation sonore par attention et apprentissage profond semi-supervisé. Congrès Francophone de Reconnaissance des Formes et Intelligence Artificielle (RFIA 2018), Jun 2018, Marne-la-Vallée, France. pp.1-3. ⟨hal-02289999⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-TLSE2 CNRS INSA-TOULOUSE LAAS SMS UT1-CAPITOLE LAAS-RAP LAAS-ROBOTIQUE INSA-GROUPE IRIT IRIT-SAMOVA IRIT-SI IRIT-UT3 TOULOUSE-INP UNIV-UT3 UT3-TOULOUSEINP

79 Consultations

59 Téléchargements

Localisation sonore par attention et apprentissage profond semi-supervisé

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager