FT-GReLoSSS: a Skeletal-based approach towards application parallelization and low-overhead fault tolerance - Archive ouverte HAL Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2011

FT-GReLoSSS: a Skeletal-based approach towards application parallelization and low-overhead fault tolerance

Résumé

FT-GReLoSSS (FTG) is a C++/MPI framework to ease the development of fault-tolerant parallel applications belonging to a SPMD family termed GReLoSSS. The originality of FTG is to rely on the MoLOToF programming model principles to facilitate the addition of an efficient checkpoint-based fault tolerance at the application level. Main features of MoLOToF encompass a structured application development based on fault-tolerant "skeletons" and lay emphasis on collaborations. The latter exist between the programmer, the framework and the underlying runtime middleware/environment. Together with the structured approach they contribute into achieving reduced checkpoint sizes, as well as reduced checkpoint and recovery overhead at runtime. This paper introduces the main principles of MoLOToF and the design of the FTG framework. To properly assess the framework's ease of use for a programmer as well as fault tolerance efficiency, a series of benchmarks were conducted up to 128 nodes on a multicore PC cluster. These benchmarks involved an existing parallel financial application for gas storage valuation, originally developed in collaboration with EDF company, and a rewritten version which made use of the FTG framework and its features. Experiments results display low-overhead compared to existing system-level counterparts.
FT-GReLoSSS (FTG) est un framework C++/MPI pour faciliter le développement d'applications parallèles tolérantes aux pannes et appartenant à une famille d'algorithmes SPMD nommée GReLoSSS. L'originalité de FTG est de reposer sur les principes du modèle de programmation MoLOToF pour faciliter l'ajout d'une tolérance aux pannes de niveau applicatif fondée sur la réalisation de points de reprise (checkpointing). MoLOToF se caractérise d'une part par un développement structuré d'applications fondé sur des "squelettes" tolérants aux pannes, et d'autre part, par l'utilisation de collaborations. Ces dernières existent entre le programmeur, le framework et l'intergiciel d'exécution/environnement sous-jacents. Couplées à l'approche structurée, les collaborations contribuent à obtenir des tailles de points de reprise réduites ainsi que des surcoûts de checkpointing et de reprise réduits. Ce rapport introduit les principaux principes de MoLOToF ainsi que la conception du framework FTG. Pour évaluer la facilité d'utilisation du framework et l'efficacité de la tolérance aux pannes, une série de tests ont été menés jusqu'à 128 nœuds d'une grappe de PCs multi-cœurs. Ces tests impliquaient une application financière existante de valorisation d'actifs de stockage de gaz, initialement développée en collaboration avec EDF, et qui a été adaptée pour pouvoir profiter de FTG et de ses fonctionnalités. Les résultats expérimentaux témoignent de surcoûts faibles par rapport à des solutions équivalentes de niveau système.
Fichier principal
Vignette du fichier
RR-7797.pdf (232.99 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00640558 , version 1 (13-11-2011)

Identifiants

  • HAL Id : hal-00640558 , version 1

Citer

Constantinos Makassikis, Stéphane Vialle, Xavier Warin. FT-GReLoSSS: a Skeletal-based approach towards application parallelization and low-overhead fault tolerance. [Research Report] RR-7797, INRIA. 2011. ⟨hal-00640558⟩
252 Consultations
121 Téléchargements

Partager

Gmail Facebook X LinkedIn More