Localisation sonore par attention et apprentissage profond semi-supervisé - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2018

Localisation sonore par attention et apprentissage profond semi-supervisé

Résumé

Afin d’interagir avec l’humain et son environnement, un robot de service doit pouvoir percevoir des informations visuelles et sonores de la scène qu’il observe ou à laquelle il participe. Il doit notamment être capable de repérer des éléments saillants dans les différents signaux captés : localisation spatiale dans une image ou temporelle dans un flux audio. L’aspect "datavore"des méthodes dites d’apprentissage profond, et le coût considérable de l’annotation des données, militent pour l’utilisation de méthodes semi-supervisées, capables d’une part d’extraire de l’information de manière supervisée, et d’autre part de prédire l’organisation spatiale ou temporelle des événements présents dans le signal traité. Dans le domaine de la vision, ce concept a été utilisé à plusieurs reprises pour effectuer de la localisation spatiale d’objet ou d’activité sur des images [1, 2, 3] à partir des signaux 2D bruts (pixels). Au niveau audio, la tendance consistant à s’affranchir des représentations bas niveau de type MFCC [4] a fait son apparition, permettant ainsi un traitement direct du signal audio brut [5, 6, 7, 8] et laissant aux réseaux de neurones la tâche d’extraire les caractéristiques représentatives optimales des signaux traités. Dans cet article,nous proposons un réseau convolutionnel, associé à un mécanisme d’attention, permettant l’exploitation du signal audio brut,afin non seulement de classifier, mais aussi de localiser temporellement un événement sonore présent dans le flux traité, et ce de manière semi-supervisé.
Fichier principal
Vignette du fichier
moreaux_22455.pdf (221.68 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02289999 , version 1 (17-09-2019)

Identifiants

  • HAL Id : hal-02289999 , version 1
  • OATAO : 22455

Citer

Marc Moreaux, Michaël Garcia Ortiz, Isabelle Ferrané, Frédéric Lerasle. Localisation sonore par attention et apprentissage profond semi-supervisé. Congrès Francophone de Reconnaissance des Formes et Intelligence Artificielle (RFIA 2018), Jun 2018, Marne-la-Vallée, France. pp.1-3. ⟨hal-02289999⟩
79 Consultations
59 Téléchargements

Partager

Gmail Facebook X LinkedIn More