Representation learning for symbolic music - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2021

Representation learning for symbolic music

Apprentissage pour la représentation de la musique symbolique

Résumé

A key part in the recent success of deep language processing models lies in the ability to learn efficient word embeddings. These methods provide structured spaces of reduced dimensionality with interesting metric relationship properties. These, in turn, can be used as efficient input representations for handling more complex tasks. In this thesis, we focus on the task of learning embedding spaces for polyphonic music in the symbolic domain. To do so, we explore two different approaches.We introduce an embedding model based on a convolutional network with a novel type of self-modulated hierarchical attention, which is computed at each layer to obtain a hierarchical vision of musical information.Then, we propose another system based on VAEs, a type of auto-encoder that constrains the data distribution of the latent space to be close to a prior distribution. As polyphonic music information is very complex, the design of input representation is a crucial process. Hence, we introduce a novel representation of symbolic music data, which transforms a polyphonic score into a continuous signal.Finally, we show the potential of the resulting embedding spaces through the development of several creative applications used to enhance musical knowledge and expression, through tasks such as melodies modification or composer identification.
Un élément clé du récent succès des modèles d'apprentissage profond de traitement du langage réside dans la capacité à apprendre des "embeddings" de mots efficaces. Ces méthodes fournissent des espaces vectoriels structurés de dimension réduite ayant des relations métriques intéressantes. Ceux-ci, à leur tour, peuvent être utilisés comme des représentations d'entrées efficaces pour traiter des tâches plus complexes. Dans cette thèse, nous nous concentrons sur la tâche d'apprentissage d'espaces "d'embedding" pour la musique polyphonique dans le domaine symbolique. Pour ce faire, nous explorons deux approches différentes.Tout d'abord, nous introduisons un modèle d'embedding basé sur un réseau convolutif avec un nouveau type de mécanisme d'attention hiérarchique auto-modulée, qui est calculé à chaque couche afin d'obtenir une vision hiérarchique de l'information musicale.Puis, nous proposons un autre système basé sur les VAE, un type d'auto-encodeur qui contraint la distribution des données de l'espace latent à être proche d'une distribution préalablement choisie. La musique polyphonique étant un type d'information complexe, le choix de la représentation d'entrée est un processus crucial. Nous introduisons donc une nouvelle représentation de données musicales symboliques, qui transforme une partition polyphonique en un signal continu.Enfin, nous montrons le potentiel de nos espaces d'embedding à travers le développement de plusieurs applications créatives utilisées pour améliorer la connaissance et l'expression musicales, à travers des tâches telles que la modification de mélodies ou l'identification de compositeurs.
Fichier principal
Vignette du fichier
PRANG_Mathieu_2021.pdf (10.62 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03329980 , version 1 (31-08-2021)
tel-03329980 , version 2 (11-07-2022)

Identifiants

  • HAL Id : tel-03329980 , version 2

Citer

Mathieu Prang. Representation learning for symbolic music. Sound [cs.SD]. Sorbonne Université, 2021. English. ⟨NNT : 2021SORUS489⟩. ⟨tel-03329980v2⟩
242 Consultations
147 Téléchargements

Partager

Gmail Facebook X LinkedIn More