Modelling and transformation of sound textures and environmental sounds

Wei-Hsiang Liao

Résumé

Recently, the processing of environmental sounds has become an important topic in various areas. Environmental sounds are mostly constituted of a kind of sounds called sound textures. Sound textures are usually non-sinusoidal, noisy and stochastic. Several researches have stated that human recognizes sound textures with time-averaged statistics that characterizing the envelopes of auditory critical bands. This suggests that these statistics should be preserved while synthesizing sound textures. Existing synthesis algorithms can impose some statistical properties to a certain extent, but most of them are excessively computational intensive. In this thesis, we propose a new analysis-synthesis framework that contains a statistical description that consists of perceptually important statistics and an efficient mechanism to adapt statistics in the time-frequency domain. The quality of resynthesised sound is at least as good as state- of-the-art but more efficient in terms of computation time. The statistic description is based on the short-time-Fourier-transform. However, if certain conditions are met, the proposed mechanism can also adapt to other filter bank based time-frequency representations. The adaptation of statistics is achieved by utilizing the connection between the statistics on time-frequency representation and the spectra of time-frequency domain coefficients. If the order of statistics is not greater than two, feasible signals can directly be generated from statistical descriptions without iterative steps. When the order of statistics is greater than two, the algorithm can still adapt all the statistics within a reasonable amount of iteration. It is possible to adapt only a part of cross-correlation functions. This allows the synthesis process to focus on more important statistics and ignore the irrelevant parts, which provides extra flexibility. With the proposed framework, one can easily extract the statistical description of a sound texture then resynthesizes arbitrary long samples of the original sound texture from the statistical description. The proposed algorithm has several perspectives. It could possibly be used to generate un- seen sound textures from artificially created statistical descriptions. It could also serve as a basis for transformations like stretching or morphing. One could also expect to use the model to explore semantic control of sound textures.

Le traitement et la synthèse des sons environnementaux sont devenue un sujet important pour le cinéma et la création des jeux vidéo. Une classe des sons, qui est très important pour la constitution d’environnements sonore, est la classe des textures sonores. Dans cette classe sont regroupé des sons qui sont décrit par des relations stochastiques et qui contient des composantes non-sinusoïdales à caractère fortement bruité. Il a été montré récemment que la reconnaissance de textures sonores est basée sur des mesures statistiques caractérisant les enveloppes dans les bandes critiques du système auditif. Pour la synthèse de textures sonores il faut par conséquence assurer que ces statistiques sont préservées. Il y actuellement très peu d’algorithmes qui permettent à imposer des propriétés statistiques de façon explicite lors de la synthèse de sons. L’algorithme qui impose l’ensemble de statistique qui est perceptivement relevant pour les textures sonore est très couteuse en temps de calcul. Dans cette thèse, nous proposons une nouvelle approche d'analyse-synthèse qui permet une analyse des statistiques relevant et un mécanisme efficace d'imposer ces statistiques dans le domaine temps-fréquence. La représentation temps-fréquence étudié dans cette thèse est la transformée de Fourier à court terme. Les méthodes proposées par contre sont plus générale et peuvent être généralisé à d'autres représentations temps-fréquence reposant sur des banques de filtres si certaines contraintes sont respectées. Afin d’imposer les statistiques sur la représentation temps-fréquence du signale des relations entre le spectre d’une signale et les statistiques du signale sont utilisé. Si l'ordre de statistiques n'est pas supérieur à deux, les signaux peuvent être générés directement à partir des descriptions statistiques sans étapes itératives. Une des méthodes proposées permet notamment d'imposer seulement une partie de la fonction de corrélation croisée. Lorsque l'ordre de statistiques est supérieur à deux, l'algorithme peut toujours imposer les statistiques de façon itérative avec un coût de calcule raisonnable. Avec le cadre proposé, on peut facilement extraire la description statistique de la texture de son et ré-synthétiser de nombreux échantillons nouveaux de la textures sonore original à partir de la description statistique. Outre que la synthèse et la dilatation d’une texture sonore donnée, l’algorithme proposé dans cette thèse ouvre plusieurs perspectives. Il pourrait être utilisé pour générer des textures sonores à partir d'une description statistique créée artificiellement. Il pourrait servir de base pour des transformations avancées comme le morphing, et on pourrait aussi imaginer à utiliser le modèle pour développer un contrôle sémantique de textures sonores.

Modelling and transformation of sound textures and environmental sounds

Modélisation et transformation de textures sonores et des sons environnementaux

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Partager