Bayesian networks for static and temporal data fusion

Thibaud Rahier 1, 2
1 MISTIS - Modelling and Inference of Complex and Structured Stochastic Systems
Inria Grenoble - Rhône-Alpes, LJK - Laboratoire Jean Kuntzmann, INPG - Institut National Polytechnique de Grenoble
Résumé : La prédiction et l’inférence sur les données temporelles sont souvent effectuées en utilisant uniquement des données provenant de séries temporelles. Nous sommes convaincus que ces tâches pourraient tirer parti de l’utilisation des métadonnées contextuelles associées aux séries temporelles, telles que la localisation, le type, etc. À l’inverse, les tâches impliquant la prédiction et l’inférence sur les métadonnées pourraient bénéficier des informations contenues dans les séries temporelles. Cependant, il n’existe pas de méthode standard pour modéliser conjointement les données de séries temporelles et les métadonnées descriptives. De plus, les métadonnées contiennent typiquement des informations hautement corrélées ou redondantes et peuvent contenir des erreurs et des valeurs manquantes. Nous examinons d’abord le problème de l’apprentissage de la structure graphique probabiliste inhérente aux métadonnées sous la forme d’un réseau bayésien. Cela présente deux avantages principaux: (i) une fois structuré en tant que modèle graphique, les métadonnées sont plus faciles à utiliser pour améliorer les tâches sur des données temporelles et (ii) le modèle appris permet des tâches d’inférence sur les métadonnées seules, comme l’imputation de données manquantes. Cependant, l’apprentissage de structure de réseau bayésien est défi mathématique conséquent, qui implique un problème d’optimisation NP-Difficile. Nous présentons un algorithme d’apprentissage de structure sur mesure, inspiré de nouveaux résultats théoriques, qui exploite les dépendances (quasi)-déterministes généralement présentes dans les métadonnées de- scriptives. Cet algorithme est testé sur de nombreux jeux de données de référence et certains jeux de métadonnées industriels contenant des relations déterministes. Dans les deux cas, il s’est avéré nettement plus rapide que les algorithmes de référence et trouve même des structures plus performantes sur certains jeux de données. De plus, les réseaux bayésiens appris sont systématiquement moins denses et donc plus lisibles. Nous nous intéressons ensuite à la conception d’un modèle qui inclut à la fois des (méta)données statiques et des données temporelles. En nous inspirant des modèles graphiques probabilistes de référence pour les données temporelles (réseaux Bayésiens dynamiques) et de l’approche décrite précédemment pour la modélisation des métadonnées, nous présentons une méthodologie générale pour modéliser conjointement les métadonnées et les données temporelles sous la forme d’un réseau Bayésien statique- dynamique hybride. Nous proposons deux algorithmes principaux associés à cette représentation: (i) un algorithme d’apprentissage qui, tout en étant optimisé pour les données industrielles, reste généralisable à toute tâche de fusion de données statiques et dynamiques, et (ii) un algorithme d’inférence permettant à la fois de résoudre les problèmes sur des données temporelles ou statiques seules et ceux nécessitant les deux types de données. Enfin, nous discutons certaines des notions introduites au cours de la thèse, notamment des moyens de mesurer les performances de généralisation d’un réseau Bayésien à l’aide d’un score inspiré de la procédure de validation croisée tirée de l’apprentissage automatique supervisé. Nous proposons également diverses extensions des algorithmes et résultats théoriques présentés dans les chapitres précédents, et formulons des perspectives de recherche
Type de document :
Thèse
Statistics [math.ST]. Communauté Université Grenoble-Alpes, 2018. English
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/tel-01971371
Contributeur : Thibaud Rahier <>
Soumis le : vendredi 1 mars 2019 - 16:45:08
Dernière modification le : mercredi 6 mars 2019 - 11:15:05

Fichier

PhD_thesis_final.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01971371, version 2

Collections

Citation

Thibaud Rahier. Bayesian networks for static and temporal data fusion. Statistics [math.ST]. Communauté Université Grenoble-Alpes, 2018. English. 〈tel-01971371v2〉

Partager

Métriques

Consultations de la notice

83

Téléchargements de fichiers

43