Co-clustering through Latent Bloc Model: a Review

Vincent Brault; Mahendra Mariadassou

Article Dans Une Revue Journal de la Société Française de Statistique Année : 2015

Co-clustering through Latent Bloc Model: a Review

Une revue bibliographique de la classification croisée au travers du modèle des blocs latents

(1) , (2)

1
2

Vincent Brault

Fonction : Auteur
PersonId : 12278
IdHAL : vincent-brault
ORCID : 0000-0003-4228-6687
IdRef : 181491885

Mathématiques et Informatique Appliquées

Mahendra Mariadassou

Fonction : Auteur
PersonId : 172671
IdHAL : mahendra-mariadassou
ORCID : 0000-0003-2986-354X
IdRef : 142892092

Mathématiques et Informatique Appliquées du Génome à l'Environnement [Jouy-En-Josas]

Résumé

We present here model-based co-clustering methods, with a focus on the latent block model (LBM). We introduce several specifications of the LBM (standard, sparse, Bayesian) and review some identifiability results. We show how the complex dependency structure prevents standard maximum likelihood estimation and present alternative and popular inference methods. Those estimation methods are based on a tractable approximation of the likelihood and rely on iterative procedures, which makes them difficult to analyze. We nevertheless present some asymptotic results for consistency. The results are partial as they rely on a reasonable but still unproved condition. Likewise, available model selection tools for choosing the number of groups in rows and columns are only valid up to a conjecture. We also briefly discuss non model-based co-clustering procedures. Finally, we show how LBM can be used for bipartite graph analysis and highlight throughout this review its connection to the Stochastic Block Model.

Nous présentons ici les méthodes de co-clustering, avec une emphase sur les modèles à blocs latents (LBM) et les parallèles qui existent entre le LBM et le Modèle à Blocs Stochastiques (SBM), notamment pour l'analyse de graphes bipartites. Nous introduisons différentes variantes du LBM (standard, sparse, bayésien) et présentons des résultats d'identifiabilité. Nous montrons comment la structure de dépendance complexe induite par le LBM rend l'estimation des paramètres par maximum de vraisemblance impossible en pratique et passons en revue des méthodes d'inférence alternatives. Ces dernières sont basées sur des procédures itératives, combinées à des approximations faciles à maximiser de la vraisemblance, ce qui les rend malaisés à analyser théoriquement. Il existe néanmoins des résultats de consistence, partiels en ce qu'ils reposent sur une condition raisonnable mais encore non démontrée. De même, les outils de sélection de modèle actuellement disponibles pour choisir le nombre de cluster reposent sur une conjecture. Nous replacons brièvement LBM dans le contexte des méthodes de co-clustering qui ne s'appuient pas sur un modèle génératif, particulièrement celles basées sur la factorisation de matrices. Nous concluons avec une étude de cas qui illustre les avantages du co-clustering sur le clustering simple.

Mots clés

Latent Variable model Latent Block Model Variational approximation Model Selection ICL BIC Bipartite Graphs

Modèle à variables latentes Approximation variationnelle Sélection de modèle Graphes bipartites Modèle à blocs latents

Domaines

Statistiques [math.ST] Applications [stat.AP] Théorie [stat.TH] Machine Learning [stat.ML]

Fichier principal

474-Texte de l'article-1832-2-10-20151118.pdf (451.18 Ko)

Origine : Accord explicite pour ce dépôt

Vincent Brault : Connectez-vous pour contacter le contributeur

https://hal.science/hal-02088216

Soumis le : mardi 2 avril 2019-16:30:22

Dernière modification le : mardi 26 mars 2024-09:38:59

Archivage à long terme le : mercredi 3 juillet 2019-17:26:01

Dates et versions

hal-02088216 , version 1 (02-04-2019)

Identifiants

HAL Id : hal-02088216 , version 1

Citer

Vincent Brault, Mahendra Mariadassou. Co-clustering through Latent Bloc Model: a Review. Journal de la Société Française de Statistique, 2015, 156 (3), pp.120-139. ⟨hal-02088216⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

AGROPARISTECH INRA MIA-PARIS UNIV-PARIS-SACLAY INRAE GS-COMPUTER-SCIENCE MAIAGE MATHNUM

120 Consultations

90 Téléchargements

Co-clustering through Latent Bloc Model: a Review

Une revue bibliographique de la classification croisée au travers du modèle des blocs latents

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager