Températures, erreurs matérielles et GPU

David Defour 1 Eric Petit 2
1 DALI - Digits, Architectures et Logiciels Informatiques
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier, UPVD - Université de Perpignan Via Domitia
Résumé : Les co-processeurs massivement parallèles offrent une grande puissance de calcul en intégrant un nombre croissant de coeurs. De plus, les technologies de gravure sont de plus en plus denses, les fréquences plus élevées et les voltages plus faibles. La combinaison de ces facteurs tend à augmenter significativement la probabilité d'erreurs de calcul dues aux erreurs physiques. Dans cet article, nous présentons les résultats d'expériences caractérisant l'impact du vieillissement des cartes de type GPU NVIDIA sur l'apparition d'erreurs physiques. En se basant sur une plateforme logicielle de micro-tests écrit en OpenCL, nous sollicitons de manière intensive et ciblée certains éléments de l'architecture pour caractériser les éventuelles erreurs de calcul. Afin d'accélérer le processus de vieillissement et donc d'apparition d'erreurs, nous utilisons une technique standard, consistant à faire fonctionner les processeurs à des températures élevées. Ce papier introduit les phénomènes physiques et l'état de l'art liés aux méthodes de caractérisation des erreurs physiques. Nous présentons ensuite notre adaptation de ces protocoles au cas des GPU NVIDIA ainsi que nos premiers résultats. Ces derniers montrent comment et où ces erreurs se produisent.
Type de document :
Communication dans un congrès
ComPAS: Conférence en Parallélisme, Architecture et Système, Jan 2013, Grenoble, France. pp.1-11, 2013, 〈http://compas2013.inrialpes.fr/〉
Liste complète des métadonnées

Littérature citée [1 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-00785386
Contributeur : David Defour <>
Soumis le : mercredi 6 février 2013 - 10:14:14
Dernière modification le : samedi 25 novembre 2017 - 10:16:11
Document(s) archivé(s) le : samedi 1 avril 2017 - 16:50:08

Fichier

GPU_burn.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00785386, version 1

Collections

Citation

David Defour, Eric Petit. Températures, erreurs matérielles et GPU. ComPAS: Conférence en Parallélisme, Architecture et Système, Jan 2013, Grenoble, France. pp.1-11, 2013, 〈http://compas2013.inrialpes.fr/〉. 〈hal-00785386〉

Partager

Métriques

Consultations de la notice

155

Téléchargements de fichiers

328