Checkpointing algorithms and fault prediction - Archive ouverte HAL Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2013

Checkpointing algorithms and fault prediction

Résumé

This paper deals with the impact of fault prediction techniques on checkpointing strategies. We extend the classical first-order analysis of Young and Daly in the presence of a fault prediction system, characterized by its recall and its precision. In this framework, we provide an optimal algorithm to decide when to take predictions into account, and we derive the optimal value of the checkpointing period. These results allow to analytically assess the key parameters that impact the performance of fault predictors at very large scale.
Ce travail considère l'impact des techniques de prédiction de fautes sur les stratégies de protocoles de sauvegarde de points de reprise (\emph{checkpoints}) et de redémarrage. Nous étendons l'analyse classique de Young en présence d'un système de prédiction de fautes, qui est caractérisé par son rappel (taux de pannes prévues sur nombre total de pannes) et par sa précision (taux de vraies pannes parmi le nombre total de pannes annoncées). Dans ce travail, nous avons pu obtenir la valeur optimale de la période de checkpoint (minimisant ainsi le gaspillage de l'utilisation des ressources dû au coût de prise de ces points de sauvegarde) dans différents scénarios. Ce papier pose les fondations théoriques pour de futures expériences et une validation du modèle.
Fichier principal
Vignette du fichier
RR-8237.pdf (957.7 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00788313 , version 1 (14-02-2013)
hal-00788313 , version 2 (01-11-2013)

Identifiants

  • HAL Id : hal-00788313 , version 2

Citer

Guillaume Aupy, Yves Robert, Frédéric Vivien, Dounia Zaidouni. Checkpointing algorithms and fault prediction. [Research Report] RR-8237, INRIA. 2013, pp.8237. ⟨hal-00788313v2⟩
291 Consultations
267 Téléchargements

Partager

Gmail Facebook X LinkedIn More