Inférence du Modèle à Blocs Stochastiques en présence de données manquantes. - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2017

Inférence du Modèle à Blocs Stochastiques en présence de données manquantes.

Résumé

The stochastic block model (SBM) [8] is a random graph model generalizing the Erdős-Reyni model [4] by means of a latent structure on the nodes. The use of latent variables in the SBM allows to model a broad variety of network topologies, in particular affiliation networks, star networks or bipartite networks. The inference of such models is based on modifications of the EM (Expectation Maximization) algorithm, such as the variational EM [1] or the variational Bayes algorithm [7]. In these approaches, the network is always considered to be perfectly observed, whereas many cases of application (particularly in sociology) suggest that its observation is partial and guided by a sampling strategy depending on the network itself. The present work has been motivated by the fact that a partial sampling of the network may induce estimation biases in the SBM model. Our goal is to model the sampling strategy used in order to integrate this strategy in the inference procedure itself. In this perspective, we rely on the missing data theory developed by D. Rubin [9] that we adapt to the framework of the SBM. We propose a typology of the sampling strategies in the SBM, for which the integration in the inference strategy varies. The sampling strategies are grouped essentially in two classes: i) those where the probability of being sampled is independent of the value of the missing data (Missing At Random - MAR) and ii) their counterpart "Not missing at random" (Not Missing At Random - NMAR). In the MAR case, the sampling strategy does not disturb the inference and it suffices to conduct the inference only on the observed part of the graph. On the contrary, NMAR strategies require that the sampling strategy used to collect the data must be taken into account in the inference. For all MAR strategies, we have adapted the EM algorithms in their variational form for the inference of the binary SBM. In the NMAR case, we propose a stochastic version of the EM algorithm (SAEM) to correct the estimation biases induced by the sampling. We present simulations to demonstrate the relevance of our approach.
Le modèle à blocs stochastiques ou Stochastic Block Model (SBM) [8] est un modèle de graphe aléatoire généralisant le modèle d’Erdős-Reyni [4] à l’aide d’une structure latente sur les nœuds. L’utilisation de variables latentes dans le SBM permet de modéliser un large spectre de topologies de réseau, en particulier les graphes en affiliation, en étoile ou bipartite. L’inférence de ces modèles repose sur des modifications de l’algorithme EM (Expectation Maximization), comme par exemple l’approche EM variationnelle [1] ou Bayésienne variationnelle [7]. Dans ces approches, le réseau est toujours considéré comme parfaitement observé, alors que de nombreux cas d’application (en particulier en sociologie) suggèrent que son observation est partielle et guidée par une stratégie d’échantillonnage dépendant du réseau lui-même. La motivation de ce travail vient du constat qu’un échantillonnage partiel du réseau peut induire un biais d’estimation dans le modèle SBM. Notre objectif est la modélisation de la stratégie d’échantillonnage utilisée et son intégration dans les procédure d’inférence. Dans cette optique, nous nous appuyons sur la théorie des données manquantes développée par D. Rubin [9] que nous adaptons au cadre du SBM. Nous proposons une typologie pour les stratégies d’échantillonnages dans le SBM pour lesquelles la prise en compte dans l’inférence varie. Les stratégies se regroupent essentiellement en deux classes : i) celles où la probabilité d’être échantillonné est indépendante de la valeur des données manquantes, dites "manquantes au hasard" (Missing At Random – MAR) et ii) leur contrepartie "non manquantes au hasard" (Not Missing At Random – NMAR). Dans le cas MAR, la stratégie d’échantillonnage ne perturbe pas l’inférence et il suffit de conduire l’inférence uniquement sur la partie observée du graphe. Au contraire, les stratégies NMAR nécessitent la prise en compte dans l’inférence de la stratégie d’échantillonnage employée pour récolter les données. Pour toutes les stratégies MAR, nous avons adapté les algorithmes EM dans leur forme variationnelle pour l’inférence des paramètres du SBM binaire. Dans le cas NMAR, nous proposons une version stochastique de l’algorithme EM (SAEM) permettant de corriger les biais d’estimation. Nous présentons des simulations qui permettent de mettre en évidence la pertinence de ces approches.
Fichier non déposé

Dates et versions

hal-01565531 , version 1 (19-07-2017)

Identifiants

  • HAL Id : hal-01565531 , version 1
  • PRODINRA : 399553

Citer

Timothée Tabouy, Pierre Barbillon, Julien Chiquet. Inférence du Modèle à Blocs Stochastiques en présence de données manquantes.. 49. Journées de Statistique de la SFdS, May 2017, Avignon, France. 6 p. ⟨hal-01565531⟩
218 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More