Modélisation Mathématique du problème d'Ordonnancement dans Hadoop
Résumé
Notre objectif est l'optimisation de l'exécution de travaux sur un cluster Hadoop.
Hadoop est un logiciel libre de gestion de gros volumes de données, basé sur le calcul distribué. Il est fondé sur le paradigme map-reduce introduit par Google et sur un système de fichiers distribué nommée HDFS. Malgré son adoption par des entreprises de grande envergure, des études tel que (Palvo, et al. 2009) montrent que la configuration par défaut de Hadoop ne fournit ni les meilleures performances ni la meilleure exploitation du cluster physique. Afin de remédier à cette problématique, plusieurs travaux de recherches sont apparus : (Bogdan Nicolae 2010) qui propose un nouveau système de fichier adapté au paradigme map-reduce et (Zhao, et al. 2012) qui contribue sur la localisation des données et la gestion des flux sur le cluster.
Le travail présenté vise à optimiser l'affectation de travaux, décomposés en tâches map et reduce, sur un ensemble de machines du réseaux de sorte à réduire la durée de traitement et les migrations de données sur le réseau. Nous introduirons un modèle mathématique indexé sur le temps, dans le but non seulement de définir le problème d'optimisation mais également de proposer par la suite des heuristiques d'ordonnancement plus performantes que celles existantes au sein du système Hadoop.