Meaningful audio synthesis and musical interactions by representation learning of sound sample databases.

Adrien Bitton

Résumé

Computer assisted music extensively relies on audio sample libraries and virtual instruments which provide users an ever increasing amount of contents to produce music with. However, principled methods for large-scale interactions are lacking so that browsing samples and presets with respect to a target sound idea is a tedious and arbitrary process. Indeed, library metadata can only describe coarse categories of sounds but do not meaningfully traduce the underlying acoustic contents and continuous variations in timbre which are key elements of music production and creativity. Timbre perception has been studied by carrying listening tests and organising human ratings into low dimensional spaces which reflect the perceived similarity of sounds, however these analysis spaces do not generalise to new and unrated examples, nor they allow to synthesise audio. Digital signal processing models have been applied to analysis and synthesis, so that the extracted parameters can be manipulated and inverted back to audio. However, we observe that these methods require a high number of parameters and representation dimensions to allow accurate reconstructions. Visualisation and control are thus little intuitive, moreover these invertible dimensions mainly correspond to low-level signal properties and do not represent much semantic information. The recent advances in deep generative modelling show unprecedented successes at learning large-scale unsupervised representations which invert to data as diverse as images, texts and audio. These probabilistic models could be refined to specific generative tasks such as unpaired image translation and semantic manipulations of visual features, demonstrating the ability of learning transformations and representations that are perceptually meaningful. The application of deep generative models to musical audio is at early stages and requires adapted model architectures and interactions. High quality auto-regressive waveform synthesis has been achieved for both speech and musical audio, however these models are computationally intensive, unsuited to moderate dataset sizes and offer little control over the generation for creative purposes. In this thesis, we target efficient analysis and synthesis with auto-encoders to learn low dimensional acoustic representations for timbre manipulations and intuitive interactions for music production. We adapt domain translation techniques to timbre transfer and propose alternatives to adversarial learning for many-to-many transfers. In this process, timbre is implicitly modelled by disentangling the representations of domain specific and domain invariant features. Then we develop models for explicit modelling of timbre variations and controllable audio sampling using conditioning for semantic attribute manipulations and hierarchical learning to represent both acoustic and temporal variations. We also apply discrete representation learning to decompose a target timbre into short-term acoustic features that are applied to audio conversions such as timbre transfer and voice-driven synthesis. By analysing and mapping this discrete latent representation, we show that we can directly control synthesis by acoustic descriptors. Finally, we investigate the possibility of further reducing the complexity of trained models by weight trimming for real-time inference with constrained computational resources. Because the objectives used for training the models are often disjoint from the ultimate generative application, our discussion and evaluation emphasise both aspects of learning performance and usability as a creative tool for music production. The organisation of this thesis is as follows. The first section introduces computational music processing, its different levels of expression and sets the problem domain of meaningful audio synthesis for music and with machine learning tools. The second section details the representation properties of audio and music information, it reviews classical models for audio synthesis and introduces the data-driven approach to music processing with machine learning. The third section introduces unsupervised learning and reviews the fundamentals of generative modelling with deep learning. The fourth section discusses related works in the field of neural audio synthesis with an emphasis in music applications. The fifth section presents the experiments carried during this thesis and discusses the results and evaluations, in the format of a "thesis by publications". The sixth section summarizes the results and publications along with related projects that were carried during the thesis and conclude with future works.

La musique assistée par ordinateur fait beaucoup usage de librairies d’échantillons audios et d'instruments numériques qui offrent des possibilités de composition sans précédent. Cependant, l’abondance des matériaux sonores disponibles nécessite de nouvelles méthodes d’interaction en adéquation avec ceux-ci sans quoi le parcours des échantillons et configurations audios est inefficace et arbitraire. En effet, les métadonnées qui structurent traditionnellement ces librairies ne peuvent que traduire grossièrement les caractéristiques acoustiques des différentes catégories sonores. Notamment, les variations continues du timbre musical ne sont pas exprimées alors qu’elles jouent un rôle significatif dans la production et la créativité musicale. La perception du timbre a été étudiée par des testes d’écoute et l’analyse de ces résultats a permis la construction d’espaces de timbre dont les dimensions traduisent la similarité perceptive des différents sons. Cependant, ces espaces ne permettent pas d’analyser de nouveaux échantillons sonores et ils n’offrent aucun mécanisme inverse pour la génération audio. Les modèles de traitement du signal numérique permettent l’analyse et la synthèse, de telle manière que les paramètres extraits du son peuvent être manipulés pour la production de nouveaux sons. Bien que ces techniques soient performantes, elles nécessitent souvent l’ajustement de nombreux paramètres afin d’obtenir des reconstructions précises et leur visualisation est ardue de part leurs représentations à haute dimensionnalité. Ainsi, le contrôle des techniques basées sur le traitement du signal manque d’intuitivité et les dimensions de ces espaces de synthèse sont principalement liées à des propriétés de bas niveau du signal qui ont une valeur sémantique limitée. Les progrès des modèles d’apprentissage génératif ont démontré des capacités sans précédent pour le traitement des données à grande échelle. Ces méthodes probabilistes permettent la construction d’espaces non supervisés pour la synthèse de données telles que les images, le texte ou le son et ont permis de nouvelles interactions telles que la conversion automatique d’images et la manipulation d’attributs perceptifs et stylistiques. L’application des modèles d’apprentissage profond pour la génération audio a pris un essor au cours des dernières années et ce développement requiert des architectures adaptées ainsi que la conception d’interactions spécifiquement pensées pour la synthèse sonore. La synthèse directe de forme d’onde par des processus auto-régressifs a établi l’état de l’art pour la production de la voix et des sons musicaux. Bien qu’ils atteignent une haute qualité, ces modèles requièrent des puissances de calcul prohibitives et ne sont pas efficaces sur des bases de données de tailles limitées. De plus, les mécanismes auto-régressifs ont une modélisation locale performante mais leurs représentations et interactions sur les propriétés à long terme sont limitées. Au cours de cette thèse, nous développons des techniques d’analyse/synthèse efficaces basées sur les modèles auto-encodeurs afin d’apprendre des représentations acoustiques inversibles de basse dimensionnalité pour la manipulation intuitive du timbre musical. En premier lieu, nous adaptons les techniques non supervisées de conversion d’images au transfert de propriétés de timbre. Nous proposons des objectifs alternatifs à l’entrainement par réseaux antagonistes génératifs qui permettent le transfert entre de multiples domaines, tels que des collections d’échantillons audios de différents instruments. Nous référons à cette approche comme une modélisation implicite du timbre qui est définit comme l’ensemble des propriétés qui ne sont pas partagées entre les différents domaines sonores. Ensuite, nous introduisons de nouveaux modèles pour l’apprentissage explicite de représentations du timbre musical et l’échantillonnage avec contrôle des propriétés acoustiques et sémantiques. Ces modèles s’appuient notamment sur le conditionnement du réseau génératif (décodeur) par des attributs musicaux cibles et l’apprentissage hiérarchique de représentations acoustiques locales et séquentielles à plus long terme. De plus, nous appliquons l’apprentissage de représentation discrète pour la décomposition acoustique du timbre qui permet de quantifier et convertir d’autres sources audios par reconstruction avec les propriétés de timbre apprisent dans le domaine cible. Ce faisant, nous proposons une méthode d’analyse de cette représentation discrète par descripteurs acoustiques qui permet le contrôle direct de la synthèse de variations acoustiques cibles. Enfin, nous avons conduit une étude sur la réduction des modèles d’apprentissage profond pour le traitement et la synthèse audio qui permet de réduire drastiquement la taille et le cout de calcul nécessaires à leur déploiement sur des systèmes grand-public et embarqués. Ainsi, notre discussion et évaluation ne se concentrent pas seulement sur la performance d’apprentissage mais aussi sur les qualités d’interaction et l’efficacité de ces modèles pour un usage avec des ressources de calcul contraintes. L’organisation de cette thèse s’articule de la manière suivante. La première section introduit le traitement numérique de la musique, ses différents niveaux d’expression et pose la problématique de la synthèse audio avec les techniques d’apprentissage automatique. La seconde section détaille les propriétés des représentations de l’information musicale et sonore. Pour ce faire, nous récapitulons les méthodes classiques d’analyse et de synthèse ainsi que l’introduction des approches d’apprentissage. La troisième section détaille les fondements de l’apprentissage non supervisé et les principaux modèles génératifs de la littérature. La quatrième section détaille les tâches et modèles de référence appliqués à la synthèse audio musicale. La cinquième section fait un compte rendu des expériences effectuées au cours de la thèse, les contributions et résultats sont alors présentés dans le format d’une “thèse par articles”. Enfin la sixième et dernière section conclut le manuscrit avec un résumé des travaux de recherche effectués, une discussion des projets conduits en parallèle de la thèse et les directions futures de recherche.

Meaningful audio synthesis and musical interactions by representation learning of sound sample databases.

Apprentissage de représentations audio pour la synthèse musicale et l'interaction.

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager