Skip to Main content Skip to Navigation
Conference papers

Localisation sonore par attention et apprentissage profond semi-supervisé

Résumé : Afin d’interagir avec l’humain et son environnement, un robot de service doit pouvoir percevoir des informations visuelles et sonores de la scène qu’il observe ou à laquelle il participe. Il doit notamment être capable de repérer des éléments saillants dans les différents signaux captés : localisation spatiale dans une image ou temporelle dans un flux audio. L’aspect "datavore"des méthodes dites d’apprentissage profond, et le coût considérable de l’annotation des données, militent pour l’utilisation de méthodes semi-supervisées, capables d’une part d’extraire de l’information de manière supervisée, et d’autre part de prédire l’organisation spatiale ou temporelle des événements présents dans le signal traité. Dans le domaine de la vision, ce concept a été utilisé à plusieurs reprises pour effectuer de la localisation spatiale d’objet ou d’activité sur des images [1, 2, 3] à partir des signaux 2D bruts (pixels). Au niveau audio, la tendance consistant à s’affranchir des représentations bas niveau de type MFCC [4] a fait son apparition, permettant ainsi un traitement direct du signal audio brut [5, 6, 7, 8] et laissant aux réseaux de neurones la tâche d’extraire les caractéristiques représentatives optimales des signaux traités. Dans cet article,nous proposons un réseau convolutionnel, associé à un mécanisme d’attention, permettant l’exploitation du signal audio brut,afin non seulement de classifier, mais aussi de localiser temporellement un événement sonore présent dans le flux traité, et ce de manière semi-supervisé.
Document type :
Conference papers
Complete list of metadata

Cited literature [11 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-02289999
Contributor : Open Archive Toulouse Archive Ouverte (OATAO) Connect in order to contact the contributor
Submitted on : Tuesday, September 17, 2019 - 11:59:15 AM
Last modification on : Monday, July 4, 2022 - 9:12:41 AM
Long-term archiving on: : Saturday, February 8, 2020 - 9:50:52 PM

File

moreaux_22455.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-02289999, version 1
  • OATAO : 22455

Citation

Marc Moreaux, Michaël Garcia Ortiz, Isabelle Ferrané, Frédéric Lerasle. Localisation sonore par attention et apprentissage profond semi-supervisé. Congrès Francophone de Reconnaissance des Formes et Intelligence Artificielle (RFIA 2018), Jun 2018, Marne-la-Vallée, France. pp.1-3. ⟨hal-02289999⟩

Share

Metrics

Record views

53

Files downloads

45