Machine learning tools for biomarker discovery

Abstract : Mes travaux de recherche s’inscrivent dans le cadre du développement de techniques d’apprentissage statistique (« machine learning ») pour la recherche thérapeutique.Ils visent en particulier à proposer des outils informatiques permettant d’exploiter des jeux de données pour en extraire des hypothèses biologiques expliquant au niveau génomique ou moléculaire les différences entre échantillons observées à un niveau macroscopique.De tels outils sont nécessaires à la mise en œuvre de la médecine de précision, qui requiert d’identifier les caractéristiques, génomiques ou autres, expliquant les différences de pronostic ou de réponse thérapeutique entre patients présentant les mêmes symptômes.Ces questions peuvent souvent être formulées comme des problèmes de sélection de variables. Les jeux de données utilisés, cependant, contiennent généralement largement plus de variables que d’échantillons, ce qui pose des difficultés statistiques. Pour répondre à ces défis, mes travaux s’orientent autour de trois axes.Premièrement, les connaissances accumulées sur les systèmes biologiques peuvent sou-vent être représentées sous la forme de réseaux biologiques. Sous l’hypothèse que les variables connectées par ces réseaux sont susceptibles d’agir conjointement sur un phénotype, nous proposons d’utiliser ces réseaux pour guider un algorithme de sélection de variables. Il s’agit ici d’utiliser des contraintes qui encouragent les variables sélectionnées à être connectées sur un réseau donné. La formulation que nous avons proposée, qui s’inscrit dans le cadre plus large de ce que j’appelle la pertinence régularisée, permet de résoudre efficacement le problème de sélection de variables sur des jeux de données comportant des centaines de milliers de variables.Deuxièmement, pour compenser le faible nombre d’échantillons disponibles, les méthodes dites multitâches résolvent simultanément plusieurs problèmes, ou tâches, proches. Nous avons étendu la pertinence régularisée à ce contexte. Je me suis aussi intéressée au cas où il est possible de définir une similarité entre tâches, afin d’imposer que les variables sélectionnées pour deux tâches soient d’autant plus similaires que les deux tâches sont semblables. Ces approches sont pertinentes dans le cas de l’étude de la réponse à différents traitements médicamenteux : on peut alors utiliser la similarité entre les structures moléculaires de ces médicaments, sujet que j’ai étudié pendant ma thèse.Enfin, la plupart des approches de sélection de variables utilisées dans le contexte de la génomique ne peuvent expliquer le phénomène d’intérêt que par des effets linéaires.Cependant, de nombreux travaux indiquent que les régions du génome peuvent interagir de façon non-linéaire. Modéliser de telles interactions, que l’on qualifie d’épistatiques,aggrave cependant les problèmes statistiques déjà rencontrés précédemment, et crée aussi des problèmes computationnels : il devient difficile d’évaluer toutes les combinaisons possibles de variables. Mes travaux portent aussi bien sur les difficultés calculatoires que sur les difficultés statistiques rencontrées dans la modélisation d’interactions quadratiques entre paires de régions du génomes. Plus récemment, nous avons aussi développé des approches permettant la modélisation d’interactions plus complexes grâce à des méthodes à noyaux
Document type :
Habilitation à diriger des recherches
Complete list of metadatas

Cited literature [287 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/tel-02354924
Contributor : Chloé-Agathe Azencott <>
Submitted on : Friday, November 8, 2019 - 5:53:32 AM
Last modification on : Sunday, November 10, 2019 - 1:19:09 AM

File

hdr-azencott.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : tel-02354924, version 1

Citation

Chloé-Agathe Azencott. Machine learning tools for biomarker discovery. Machine Learning [stat.ML]. Sorbonne Université UPMC, 2020. ⟨tel-02354924⟩

Share

Metrics

Record views

66

Files downloads

139