, Mettre de côté le microphone encapsulé pour l'apprentissage donne de meilleurs résultats

, ils sont mélangés, ils semblent dégrader fortement les performances. Pour l'instant, en ce qui concerne les substitutions, nous ne pouvons rien conclure car le système semble mélanger des sons qui sont assez semblables à l'oreille ou qui ont une articulation assez similaire, et des sons qui sont très différents. Nous supposons que la division du corpus en fonction de la longueur du son

, En effet, à mesure que le vocabulaire du corpus augmentera, nous serons confrontés à un manque d'exemples pour l'apprentissage. Le fait de disposer d'un modèle basé sur des boxèmes réduirait le nombre de modèles nécessaires au système et permettrait le traitement de la coarticulation. De plus, il reste à explorer les séquences rythmiques (que nous pourions apparenter à un modèle de langage, Diviser chaque son en plus petits morceaux, comme on le fait pour les langues comportant des phonèmes ou des syllabes, est une perspective

. Enfin, il serait intéressant de voir si la reconnaissance des voix des femmes ou des enfants pose des problèmes dans le cadre des sons de beatbox

, En effet, dans les expériences décrites nos ensembles d'apprentissage ne représentent tout au plus que quelques dizaines de minutes. Pour cette raison nous sommes restés concentrés sur des modèles de type HMM-GMM qui sont moins gourmands en données que des modèles à base de réseaux de neurones profonds : nous envisageons d'exploiter des techniques d'augmentation de données, Des perspectives plus techniques visent à résoudre le fait que les données annotées de beatbox sont pour l'instant très précieuses et rares

C. A. Références and . Pinchaud-a, , pp.2019-2027, 2019.

. Evain-s, . Contesse-a, . Pinchaud-a, . Schwab-d, and . Lecouteux-b.-&-henrich-ber-nardoni-n, Beatbox sounds recognition using a speech-dedicated hmm-gmm based system, 2019.

. Hipke-k, M. Toomim, . &. Fiebrink-r, and . Fogarty-j, BeatBox : End-user Interactive Definition and Training of Recognizers for Percussive Vocalizations, pp.121-124, 2014.

. Kapur-a, G. &. Tzanetakis, and . Benning-m, Query-by-Beat-Boxing : Music Retrieval For The DJ, 2004.

. Picart-b, . &. Brognaux-s, and . Dupont-s, Analysis and automatic recognition of Human BeatBox sounds : A comparative study, 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.4255-4259, 2015.

. Povey-d, . Ghoshal-a, G. Boulianne, L. Burget, O. Glembek et al., , 2011.

, The Kaldi Speech Recognition Toolkit, p.215

. Sinyor-e, C. Mckay, . Fiebrink-r, and . Mcennis-d.-&-fujinaga-i, Beatbox classification using ACE, p.4, 2005.

. Tiwari-v, MFCC and its applications in speaker recognition, International Journal on Emerging Technologies, pp.19-22, 2010.