Machine learning tools for biomarker discovery

Chloé-Agathe Azencott

Résumé

My research focuses on the development of machine learning tools for therapeutic research. In particular, my goal is to propose computational tools that can exploit data sets to extract biological hypotheses that explain, at a genomic or molecular level, the differences between samples that can be observed at a macroscopic scale. Such tools are necessary to the development of precision medicine, which requires identifying the characteristics, genomic or otherwise, that explain the differences in prognostic or therapeutic response between patients who exhibit the same symptoms. These questions can often be formulated as feature selection problems. However, the typical data sets contain many more features than samples, which poses statistical challenges. To address these challenges, my work is organized in three axes. First, knowledge accumulated on biological system can often be represented as biological networks. Under the hypothesis that features connected on these networks are likely to work together towards a phenotype, we propose to use biological networks to guide feature selection algorithms. The idea here is to define constraints that encourage the selected features to be connected on a given network. The formulation we proposed, which can be seen as a special case of what I call regularized relevance, allows us to efficiently select features on data sets containing hundreds of thousands of variables. Second, to compensate the small number of available samples, so-called multitask methods solve several related problems, or tasks, simultaneously. We have generalized regularized relevance to this context. I have also worked on the case where one can define a similarity between tasks, to impose that the more similar two tasks are, the more the two sets of features that are selected for them are. Such approaches can be used to study the response to different drug treatments: one can then used the similarity between the molecular structures of the drugs, a topic I have studied in the course of my PhD. Finally, most feature selection methods used in genomics can only explain the phenomenon of interest by linear effects. However, a large body of literature indicates that regions of the genome can interact nonlinearly. Modeling such interactions, which are called epistatic, exacerbate the aforementioned statistical challenges, and creates computational issues: evaluating all possible combinations of variables becomes intractable. My work in this domain addresses these computational issues, as well as the statistical challenges one encounters when modeling quadratic interactions between pairs of regions of the genome. More recently, we have also developed approaches that allow to model more complex interactions thanks to kernel methods.

Mes travaux de recherche s’inscrivent dans le cadre du développement de techniques d’apprentissage statistique (« machine learning ») pour la recherche thérapeutique. Ils visent en particulier à proposer des outils informatiques permettant d’exploiter des jeux de données pour en extraire des hypothèses biologiques expliquant au niveau génomique ou moléculaire les différences entre échantillons observées à un niveau macroscopique. De tels outils sont nécessaires à la mise en œuvre de la médecine de précision, qui requiert d’identifier les caractéristiques, génomiques ou autres, expliquant les différences de pronostic ou de réponse thérapeutique entre patients présentant les mêmes symptômes. Ces questions peuvent souvent être formulées comme des problèmes de sélection de variables. Les jeux de données utilisés, cependant, contiennent généralement largement plus de variables que d’échantillons, ce qui pose des difficultés statistiques. Pour répondre à ces défis, mes travaux s’orientent autour de trois axes. Premièrement, les connaissances accumulées sur les systèmes biologiques peuvent souvent être représentées sous la forme de réseaux biologiques. Sous l’hypothèse que les variables connectées par ces réseaux sont susceptibles d’agir conjointement sur un phénotype, nous proposons d’utiliser ces réseaux pour guider un algorithme de sélection de variables. Il s’agit ici d’utiliser des contraintes qui encouragent les variables sélectionnées à être connectées sur un réseau donné. La formulation que nous avons proposée, qui s’inscrit dans le cadre plus large de ce que j’appelle la pertinence régularisée, permet de résoudre efficacement le problème de sélection de variables sur des jeux de données comportant des centaines de milliers de variables. Deuxièmement, pour compenser le faible nombre d’échantillons disponibles, les méthodes dites multitâches résolvent simultanément plusieurs problèmes, ou tâches, proches. Nous avons étendu la pertinence régularisée à ce contexte. Je me suis aussi intéressée au cas où il est possible de définir une similarité entre tâches, afin d’imposer que les variables sélectionnées pour deux tâches soient d’autant plus similaires que les deux tâches sont semblables. Ces approches sont pertinentes dans le cas de l’étude de la réponse à différents traitements médicamenteux : on peut alors utiliser la similarité entre les structures moléculaires de ces médicaments, sujet que j’ai étudié pendant ma thèse. Enfin, la plupart des approches de sélection de variables utilisées dans le contexte de la génomique ne peuvent expliquer le phénomène d’intérêt que par des effets linéaires. Cependant, de nombreux travaux indiquent que les régions du génome peuvent interagir de façon non-linéaire. Modéliser de telles interactions, que l’on qualifie d’épistatiques, aggrave cependant les problèmes statistiques déjà rencontrés précédemment, et crée aussi des problèmes computationnels : il devient difficile d’évaluer toutes les combinaisons possibles de variables. Mes travaux portent aussi bien sur les difficultés calculatoires que sur les difficultés statistiques rencontrées dans la modélisation d’interactions quadratiques entre paires de régions du génomes. Plus récemment, nous avons aussi développé des approches permettant la modélisation d’interactions plus complexes grâce à des méthodes à noyaux

Machine learning tools for biomarker discovery

Outils d'apprentissage statistique pour la découverte de biomarqueurs

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager