Ten Experiments on the Modeling of Polyphonic Timbre - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2006

Ten Experiments on the Modeling of Polyphonic Timbre

Dix Expériences sur la Modélisation du Timbre Polyphonique

Résumé

The majority of systems extracting high-level music descriptions from audio signals rely on a common, implicit model of the global sound or polyphonic timbre of a musical signal. This model represents the timbre of a texture as the long-term distribution of its local spectral features. The underlying assumption is rarely made explicit: the perception of the timbre of a texture is assumed to result from the most statistically significant feature windows. This thesis questions the validity of this assumption. To do so, we construct an explicit measure of the timbre similarity between polyphonic music textures, and variants thereof inspired by previous work in Music Information Retrieval. We show that the precision of such measures is bounded, and that the remaining error rate is not incidental. Notably, this class of algorithms tends to create false positives - which we call hubs - which are mostly always the same songs regardless of the query. Their study shows that the perceptual saliency of feature observations is not necessarily correlated with their statistical significance with respect to the global distribution. In other words, music listeners routinely “hear” things that are not statistically significant in musical signals, but rather are the result of high-level cognitive reasoning, which depends on cultural expectations, a priori knowledge, and context. Much of the music we hear as being “piano music” is really music that we expect to be piano music. Such statistical/ perceptual paradoxes are instrumental in the observed discrepancy between human perception of timbre and the models studied here.
La grande majorité des systèmes d’extraction de metadonnées haut-niveau à partir de signaux musicaux repose sur un modèle implicite de leur “son” ou timbre polyphonique. Ce modèle représente le timbre comme la distribution statistique globale d’attributs spectraux instantanés, calculés sur des trames de quelques dizaines de millisecondes. L’hypothèse sous-jacente, rarement explicitée, est que le timbre perçu d’une texture polyphonique correspond à ses attributs instantanés les plus représentés statistiquement. Cette thèse remet en cause la validité de cette hypothèse. Pour ce faire, nous construisons une mesure explicite de la similitude timbrale entre deux textures polyphoniques, déclinée sous un grand nombre de variantes typiques du domaine. Nous montrons que la précision de telles mesures est limitée et que leur taux d’erreur résiduel n’est pas accidentel. Notamment, cette classe de mesures tend à créer de faux-positifs qui sont toujours les même chansons, indépendamment de la requête de départ: des hubs. Leur étude établit que l’importance perceptuelle des attributs instantanés ne dépend pas de leur saillance statistique par rapport é leur distribution à long-terme. En d’autres termes, nous “entendons” quotidiennement dans la musique polyphonique des choses qui ne sont pourtant pas présentes de façon significative (statistiquement) dans le signal sonore, mais qui sont plutôt le résultat de raisonnement cognitifs évolués, dépendant par exemple du contexte d’écoute et de la culture de l’auditeur. La musique que nous entendons être du piano est surtout de la musique que nous nous attendons à être du piano. Ces paradoxes statistico-perceptifs expliquent en grande partie le désaccord entre les modèles étudiés ici et la perception humaine.
Fichier principal
Vignette du fichier
PHD-2006-date.pdf (3.54 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

tel-01970963 , version 1 (18-01-2019)

Identifiants

  • HAL Id : tel-01970963 , version 1

Citer

Jean-Julien Aucouturier. Ten Experiments on the Modeling of Polyphonic Timbre. Sound [cs.SD]. Université Pierre et Marie Curie (Paris 6), 2006. English. ⟨NNT : ⟩. ⟨tel-01970963⟩
163 Consultations
302 Téléchargements

Partager

Gmail Facebook X LinkedIn More