Températures, erreurs matérielles et GPU - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2013

Températures, erreurs matérielles et GPU

Résumé

Les co-processeurs massivement parallèles offrent une grande puissance de calcul en intégrant un nombre croissant de coeurs. De plus, les technologies de gravure sont de plus en plus denses, les fréquences plus élevées et les voltages plus faibles. La combinaison de ces facteurs tend à augmenter significativement la probabilité d'erreurs de calcul dues aux erreurs physiques. Dans cet article, nous présentons les résultats d'expériences caractérisant l'impact du vieillissement des cartes de type GPU NVIDIA sur l'apparition d'erreurs physiques. En se basant sur une plateforme logicielle de micro-tests écrit en OpenCL, nous sollicitons de manière intensive et ciblée certains éléments de l'architecture pour caractériser les éventuelles erreurs de calcul. Afin d'accélérer le processus de vieillissement et donc d'apparition d'erreurs, nous utilisons une technique standard, consistant à faire fonctionner les processeurs à des températures élevées. Ce papier introduit les phénomènes physiques et l'état de l'art liés aux méthodes de caractérisation des erreurs physiques. Nous présentons ensuite notre adaptation de ces protocoles au cas des GPU NVIDIA ainsi que nos premiers résultats. Ces derniers montrent comment et où ces erreurs se produisent.
Fichier principal
Vignette du fichier
GPU_burn.pdf (480.01 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00785386 , version 1 (06-02-2013)

Identifiants

  • HAL Id : hal-00785386 , version 1

Citer

David Defour, Eric Petit. Températures, erreurs matérielles et GPU. ComPAS: Conférence en Parallélisme, Architecture et Système, Jan 2013, Grenoble, France. pp.1-11. ⟨hal-00785386⟩
186 Consultations
722 Téléchargements

Partager

Gmail Facebook X LinkedIn More