Modèles de graphes aléatoires à structure cachée pour l'analyse des réseaux - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2010

Random graph models with latent structures for network analysis

Modèles de graphes aléatoires à structure cachée pour l'analyse des réseaux

Pierre Latouche
  • Fonction : Auteur
  • PersonId : 1047606

Résumé

Networks are used in many scientific fields to represent the interactions between objects of interest. For instance, in Biology, regulatory networks describe the regulation of genes with transcriptional factors while metabolic networks focus on representing pathways of biochemical reactions. In social sciences, networks are commonly used to represent the interactions between actors. In this thesis, we consider unsupervised methods which aim at clustering the vertices of a network depending on their connection profiles. There has been a wealth of literature on the topic which goes back to the earlier work of Moreno in 1934. The starting point of this thesis is the Stochastic Block Model (SBM) (Nowicki and Snijders, 2001) which can be used to uncover heterogeneous structures. We consider a Bayesian framework and propose a variational Bayes algorithm to approximate the posterior distribution over the model parameters. This naturally leads to a new model selection criterion to estimate the number of components in a network. Besides, almost all graph clustering models, such as SBM, partition the vertices into disjoint clusters. However, recent studies have shown that most existing networks contained overlapping clusters. For instance, many proteins, so-called moonlighting proteins, are known to have several functions in the cells, and actors might belong to several groups of interests. Therefore, we introduce a new random graph model, so-called, Overlapping Stochastic Block Model (OSBM). It allows the vertices of a network to belong to multiple classes and can take very different topological structures into account. Two inference procedures are proposed as well as a model selection criterion.
Les réseaux sont très largement utilisés dans de nombreux domaines scientifiques afin de représenter les interactions entre objets d'intérêt. Ainsi, en Biologie, les réseaux de régulation s'appliquent à décrire les mécanismes de régulation des gènes, à partir de facteurs de transcription, tandis que les réseaux métaboliques permettent de représenter des voies de réactions biochimiques. En sciences sociales, ils sont couramment utilisés pour représenter les interactions entre individus. Dans le cadre de cette thèse, nous nous intéressons à des méthodes d'apprentissage non supervisé dont l'objectif est de classer les noeuds d'un réseau en fonction de leurs connexions. Il existe une vaste littérature se référant à ce sujet et un nombre important d'algorithmes ont été proposés depuis les premiers travaux de Moreno en 1934. Notre point de départ est le modèle à blocs stochastiques, Stochastic Block Model (SBM) (Nowicki et Snijders, 2001) en anglais, qui permet la recherche de classes topologiques hétérogènes. Nous considérons un contexte Bayésien et proposons un algorithme de type variational Bayes pour approcher la loi a posteriori des paramètres. Cette approche permet d'obtenir un nouveau critère de sélection de modèles afin d'estimer le nombre de composantes dans un réseau. Par ailleurs, il apparaît que SBM ainsi que la plupart des modèles existants de classification sont limités puisqu'ils partitionnent les noeuds dans des classes disjointes. Or, de nombreux objets d'étude dans le cadre d'applications réelles sont connus pour appartenir à plusieurs groupes en même temps. Par exemple, en Biologie, des protéines appelées moonlighting proteins en anglais ont plusieurs fonctions dans les cellules. Nous introduisons donc un nouveau modèle de graphe aléatoire que nous appelons modèle à blocs stochastiques chevauchants, Overlapping Stochastic Block Model (OSBM) en anglais. Il autorise les noeuds d'un réseau à appartenir à plusieurs groupes simultanément et peut prendre en compte des topologies de connexion très différentes. Deux algorithmes d'estimation sont proposés ainsi qu'un critère de sélection de modèles.
Fichier principal
Vignette du fichier
these.pdf (1.61 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00623088 , version 1 (13-09-2011)

Identifiants

  • HAL Id : tel-00623088 , version 1
  • PRODINRA : 246121

Citer

Pierre Latouche. Modèles de graphes aléatoires à structure cachée pour l'analyse des réseaux. Mathématiques [math]. Université d'Evry-Val d'Essonne, 2010. Français. ⟨NNT : ⟩. ⟨tel-00623088⟩
589 Consultations
516 Téléchargements

Partager

Gmail Facebook X LinkedIn More