Contribution to High Performance Computing and Big Data Infrastructure Convergence

Michael Mercier

Résumé

The amount of produced data, either in the scientific community or the commercial world, is constantly growing. The field of Big Data has emerged to handle large amounts of data on distributed computing infrastructures. High-Performance Com- puting (HPC) infrastructures are traditionally used for the execution of compute intensive workloads. However, the HPC community is also facing an increasing need to process large amounts of data derived from high definition sensors and large physics apparati. The convergence of the two fields -HPC and Big Data- is currently taking place. In fact, the HPC community already uses Big Data tools, which are not always integrated correctly, especially at the level of the file system and the Resource and Job Management System (RJMS). In order to understand how we can leverage HPC clusters for Big Data usage, and what are the challenges for the HPC infrastructures, we have studied multiple aspects of the convergence: We initially provide a survey on the software provi- sioning methods, with a focus on data-intensive applications. We contribute a new RJMS collaboration technique called BeBiDa which is based on 50 lines of code whereas similar solutions use at least 1000 times more. We evaluate this mecha- nism on real conditions and in simulated environment with our simulator Batsim. Furthermore, we provide extensions to Batsim to support I/O, and showcase the developments of a generic file system model along with a Big Data application model. This allows us to complement BeBiDa real conditions experiments with simulations while enabling us to study file system dimensioning and trade-offs. All the experiments and analysis of this work have been done with reproducibility in mind. Based on this experience, we propose to integrate the development workflow and data analysis in the reproducibility mindset, and give feedback on our experiences with a list of best practices.

La quantité de données produites, que ce soit dans la communauté scientifique ou commerciale, est en croissance constante. Le domaine du Big Data a émergé face au traitement de grandes quantités de données sur les infrastructures infor- matiques distribuées. Les infrastructures de calcul haute performance (HPC) sont traditionnellement utilisées pour l’exécution de charges de travail intensives en cal- cul. Cependant, la communauté HPC fait également face à un nombre croissant de besoin de traitement de grandes quantités de données dérivées de capteurs haute définition et de grands appareils physique. La convergence des deux domaines -HPC et Big Data- est en cours. En fait, la communauté HPC utilise déjà des outils Big Data, qui ne sont pas toujours correctement intégrés, en particulier au niveau du système de fichiers ainsi que du système de gestion des ressources (RJMS). Afin de comprendre comment nous pouvons tirer parti des clusters HPC pour l’utilisation du Big Data, et quels sont les défis pour les infrastructures HPC, nous avons étudié plusieurs aspects de la convergence: nous avons d’abord proposé une étude sur les méthodes de provisionnement logiciel, en mettant l’accent sur les applications utilisant beaucoup de données. Nous contribuons a l’état de l’art avec une nouvelle technique de collaboration entre RJMS appelée BeBiDa basée sur 50 lignes de code alors que des solutions similaires en utilisent au moins 1000 fois plus. Nous évaluons ce mécanisme en conditions réelles et en environnement simulé avec notre simulateur Batsim. En outre, nous fournissons des extensions à Batsim pour prendre en charge les entrées/sorties et présentons le développements d’un modèle de système de fichiers générique accompagné d’un modèle d’application Big Data. Cela nous permet de compléter les expériences en conditions réelles de BeBiDa en simulation tout en étudiant le dimensionnement et les différents compromis autours des systèmes de fichiers. Toutes les expériences et analyses de ce travail ont été effectuées avec la repro- ductibilité à l’esprit. Sur la base de cette expérience, nous proposons d’intégrer le flux de travail du développement et de l’analyse des données dans l’esprit de la reproductibilité, et de donner un retour sur nos expériences avec une liste de bonnes pratiques.

Contribution to High Performance Computing and Big Data Infrastructure Convergence

Contribution à la convergence d'infrastructure entre le calcul haute performance et le traitement de données a large échelle

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager