A multi-source perspective on inter-subject learning. Contributions to neuroimaging.

Sylvain Takerkart

Résumé

Inter-subject learning is a family of learning problems encountered in the analysis of data recorded in human subjects where we need to perform predictions on data recorded from a subject that was not available at training time. The most usual problem that uses inter-subject learning is to ask whether an unknown individual is healthy or sick, i.e to design a computer-aided diagnosis tool. In this thesis, we argue that such inter-subject learning questions should be addressed within the multi-source learning framework, and we formalize it as such in the context of neuroimaging studies. Indeed, each subject is a different source of data, with data samples that potentially live in different feature spaces and that are drawn from different probability distributions. The multi-source setting therefore constitutes an extenstion of the domain adaptation problem where a single source of training data is available. We then introduce three original contributions motivated by inter-subject learning questions in neuroimaging. The result of our first contribution is a method that is able to perform reliable inter-subject predictions from fMRI data using fine-scale spatial patterns defined within a region of interest. Because of the strong inter-subject variability present at such fine scale, the original feature spaces are different across subjects. Our contribution consists in designing a common space for the patterns of all subjects using graphical representations of the patterns together with a graph kernel that implicitly projects the samples into a reproducing kernel hilbert space. We show that this approach is effective through the increased accuracy achieved on an inter-subject prediction task designed to study the functional organization of the human auditory cortex. Our second contribution is a new method that enables to detect local differences in cortical shape across groups of anatomical MRI scans. The objects used to detect such differences are, yet again, graphical reprentations, this time designed from the spatial organization of the sulcal pits – the deepest points of cortical sulci. Using a graph kernel designed for these objects allows to project them into a reproducing kernel hilbert space and to quantify the differences between groups through the performances of a classifier trained to recognize these groups. A non-parametric spatial inference method is then proposed to perform the detection of cortical zones where the differences are statistically significant. We validate this method by showing that it detects cortical asymmetries and gender differences using a large database of healthy subjects. The third contribution of this thesis is a multi-source domain adaptation technique. Our method builds upon the kernel mean matching, a distribution matching procedure that estimates importance weights for the training samples so that the weighted source distribution matches more closely the target distribution than the unweighted one. We introduce an extension of the kernel mean matching for the multi-source case, i.e when the training samples are drawn from several sources of data. We present preliminary results of this framework on a inter-subject prediction task used to analyse data from a magneto-encephalography experiment.

L’apprentissage inter-sujet intervient dans l’analyse des données enregistrées chez des sujets humains, lorsque le sujet chez lequel on doit faire une prédiction ne faisait pas partie de la base d’apprentissage. Le plus typique de ces problèmes est l’aide au diagnostic, lorsque on demande à un outil informatique si un sujet, inconnu jusque là, est sain ou malade. Dans cette thèse, nous défendons le point de vue que le problème d’apprentissage inter-sujet doit être formalisé comme un problème multi-source dans lequel chaque sujet de la base d’apprentissage fournit une source de données enregistrées dans un espace d’entrée potentiellement différent et qui sont des réalisations de distributions différentes. Le cadre multi-source est ainsi une généralisation du problème d’adaptation de domaine, dans lequel une seule source de données est disponible. Nous présentons ensuite trois contributions motivées par des problèmes d’apprentissage inter-sujet en neuroimagerie. Le résultat de notre première contribution est une méthode qui permet de produire des prédictions inter-sujet sur des données d’IRM fonctionnelle en utilisant les patrons d’activation disponibles à des échelles spatiales relativement fines disponibles dans une région d’intérêt du cortex. Du à la forte variabilité fonctionnelle inter-sujet, les espaces d’entrée dans lesquels vivent ces patrons sont différents au travers des sujets. Notre contribution consiste à construire un espace commun pour tous les sujets en utilisant une représentation graphique des patrons d’activation ainsi qu’un noyau de graphe qui projette implicitement ces représentations dans un espace de hilbert à noyau reproduisant. Nous avons démontré l’efficacité de cette approche grâce à l’amélioration de la performance de classification dans un tâche de prédiction inter-sujet construite pour étudier l’organisation fonctionnelle du cortex auditif. La deuxième contribution présentée dans cette thèse est une nouvelle méthode qui permet l’identification de différences de formes locales du cortex entre plusieurs groupes d’observations. Les objets utilisés sont, une fois de plus, des représentations graphiques, cette fois construites à partir des points correspondant à des extrema de profondeur des sillons corticaux. L’utilisation d’un noyau de graphe adapté à ces objets permet, dans l’ espace de hilbert à noyau reproduisant correspondant, de quantifier les différences entre groupes d’observations par la performance d’un classifieur entraîné à reconnaître ces groupes. Une méthode d’inférence spatial non paramétrique permet ensuite la détection, c’est à dire l’identification des zones du cortex qui présentent des différences significatives. Nous validons cette méthode en démontrant qu’elle permet d’identifier, sur une large population de sujets sains, des asymétries corticales ainsi que des différences inter-sexe. La troisième contribution est une méthode d’adaptation de domaine pour le cas multi-source. Notre méthode se base sur le kernel mean matching, une procédure d’appariement de distributions qui adapte la distribution de l’ensemble d’entrainement à celle de l’ensemble de test par une pondération des exemples d’apprentissage. Nous décrivons une extension du kernel mean matching au cas où l’ensemble d’apprentissage se compose de plusieurs sources de données. Nous présentons des résultats préliminaires sur une tâche de classification inter-sujet dans une expérience de magnéto-encéphalographie.

A multi-source perspective on inter-subject learning. Contributions to neuroimaging.

Un point de vue multi-source pour l'apprentissage inter-sujet. Contributions pour la neuroimagerie.

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Partager