Modèles de mutation : étude probabiliste et estimation paramétrique

Adrien Mazoyer

Résumé

Mutation models are probabilistic descriptions of the growth of a population of cells, where mutations occur randomly during the process. Data are samples of integers, interpreted as final numbers of mutant cells. These numbers may be coupled with final numbers of cells (mutant and non mutant) or a mean final number of cells. The frequent appearance in the data of very large mutant counts, usually called “jackpots”, evidences heavy-tailed probability distributions. Any mutation model can be interpreted as the result of three ingredients. The first ingredient deals with the number of mutations occuring with small probability among a large number of cell divisions. Due to the law of small numbers, the number of mutations approximately follows a Poisson distribution. The second ingredient models the developing duration of the clone stemming from each mutation. Due to exponential growth, most mutations occur close to the end of the experiment. Thus the developing time of a random clone has exponential distribution. The last ingredient represents the number of mutant cells that any clone developing for a given time will produce. This number depends mainly on the distribution of division times of mutants. One of the most often used mutation models is the Luria-Delbrück model. In this model, division times of mutant cells are supposed to be exponentially distributed. Thus a clone develops according to a Yule process and its size at any given time follows a geometric distribution. This approach leads to a family of probability distributions which depend on the expected number of mutations and the relative fitness (the ratio of the growth rate of normal cells to that of mutants). The statistical purpose of mutation models is the estimation of these parameters. The probability for a mutant cell to appear upon any given cell division is estimated dividing the mean number of mutations by the mean final number of cells. Given samples of final mutant counts, it is possible to build estimators maximizing the likelihood, or using the probability generating function. Computing robust estimates is of crucial importance in medical applications, like cancer tumor relapse or multidrug resistance of Mycobacterium Tuberculosis for instance. The problem with classical mutation models, is that they are based on quite unrealistic assumptions : constant final number of cells, no cell deaths, exponential distribution of lifetimes, or time homogeneity. Using a model for estimation, when the data have been generated by another one, necessarily induces a bias on estimates. Several sources of bias has been partially dealt with until now : non-exponential lifetimes, cell deaths, fluctuations of the final count of cells, dependence of the lifetimes, plating efficiency. The time homogeneity remains untreated. This thesis contains probabilistic and statistical study of mutation models taking into account the following bias sources : non-exponential and non-identical lifetimes, cell deaths, fluctuations of the final count of cells, plating efficiency. Simulation studies have been performed in order to propose robust estimation methods, whatever the modeling assumptions. The methods have also been applied to real data sets, to compare the results with the estimates obtained under classical models. An R package based on the different results obtained in this work has been implemented (joint work with Rémy Drouilhet and Stéphane Despréaux) and is available on the CRAN. It includes functions dedicated to the mutation models and parameter estimation. The applications have been partially developed for the Labex TOUCAN (Toulouse Cancer).

Les modèles de mutations décrivent le processus d’apparitions rares et aléatoires de mutations au cours de la croissance d’une population de cellules. Les échantillons obtenus sont constitués de nombres finaux de cellules mutantes, qui peuvent être couplés avec des nombres totaux de cellules ou un nombre moyen de cellules en fin d’expérience. La loi du nombre final de mutantes est une loi à queue lourde : de grands décomptes, appelés “jackpots”, apparaissent fréquemment dans les données. Une construction générale des modèles se décompose en trois niveaux. Le premier niveau est l’apparition de mutations aléatoires au cours d’un processus de croissance de population. En pratique, les divisions cellulaires sont très nombreuses, et la probabilité qu’une de ces divisions conduise à une mutation est faible, ce qui justifie une approximation poissonnienne pour le nombre de mutations survenant pendant un temps d’observation donné. Le second niveau est celui des durées de développement des clones issus de cellules mutantes. Du fait de la croissance exponentielle, la majeure partie des mutations ont lieu à la fin du processus, et les durées de développement sont alors indépendantes et exponentiellement distribuées. Le troisième niveau concerne le nombre de cellules qu’un clone issu d’une cellule mutante atteint pendant une durée de développement donnée. La loi de ce nombre dépend principalement de la loi des instants de division des mutantes. Le modèle classique, dit de Luria-Delbrück, suppose que les développements cellulaires des cellules normales aussi bien que mutantes s’effectue selon un processus de Yule. On peut dans ce cas expliciter la loi du nombre final de mutantes. Elle dépend de deux paramètres, qui sont le nombre moyen de mutations et le paramètre de fitness (rapport des taux de croissance des deux types de cellules). Le problème statistique consiste à estimer ces deux paramètres au vu d’un échantillon de nombres finaux de mutantes. Il peut être résolu par maximisation de la vraisemblance, ou bien par une méthode basée sur la fonction génératrice. Diviser l’estimation du nombre moyen de mutations par le nombre total de cellules permet alors d’estimer la probabilité d’apparition d’une mutation au cours d’une division cellulaire. l’estimation de cette probabilité est d’une importance cruciale dans plusieurs domaines de la médecine et de biologie : rechute de cancer, résistance aux antibiotiques de Mycobacterium Tuberculosis, etc. La difficulté provient de ce que les hypothèses de modélisation sous lesquelles la distribution du nombre final de mutants est explicite sont irréalistes. Or estimer les paramètres d’un modèle quand la réalité en suit un autre conduit nécessairement à un biais d’estimation. Il est donc nécessaire de disposer de méthodes d’estimation robustes pour lesquelles le biais, en particulier sur la probabilité de mutation, reste le moins sensible possible aux hypothèses de modélisation. Cette thèse contient une étude probabiliste et statistique de modèles de mutations prenant en compte les sources de biais suivantes : durées de vie non exponentielles, morts cellulaires, variabilité du nombre final de cellules, durées de vie non-exponentielles et non-identiquement distribuées, dilution de la population initiale. Des études par simulation des méthodes considérées sont effectuées afin de proposer, selon les caractéristiques du modèle, l’estimation la plus fiable possible. Ces méthodes ont également été appliquées à des jeux de données réelles, afin de comparer les résultats avec les estimations obtenues sous les modèles classiques. Un package R a été implémenté en collaboration avec Rémy Drouilhet et Stéphane Despréaux et est disponible sur le CRAN. Ce package contient les différents résultats obtenus au cours de ce travail. Il contient des fonctions dédiées aux modèles de mutations, ainsi qu’à l’estimation des paramètres. Les applications ont été en partie développées pour le Labex TOUCAN (Toulouse Cancer).

Mutation models: probabilistic study and parameter estimation

Modèles de mutation : étude probabiliste et estimation paramétrique

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager