Skip to Main content Skip to Navigation
Conference papers

Températures, erreurs matérielles et GPU

David Defour 1 Eric Petit 2
1 DALI - Digits, Architectures et Logiciels Informatiques
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier, UPVD - Université de Perpignan Via Domitia
Résumé : Les co-processeurs massivement parallèles offrent une grande puissance de calcul en intégrant un nombre croissant de coeurs. De plus, les technologies de gravure sont de plus en plus denses, les fréquences plus élevées et les voltages plus faibles. La combinaison de ces facteurs tend à augmenter significativement la probabilité d'erreurs de calcul dues aux erreurs physiques. Dans cet article, nous présentons les résultats d'expériences caractérisant l'impact du vieillissement des cartes de type GPU NVIDIA sur l'apparition d'erreurs physiques. En se basant sur une plateforme logicielle de micro-tests écrit en OpenCL, nous sollicitons de manière intensive et ciblée certains éléments de l'architecture pour caractériser les éventuelles erreurs de calcul. Afin d'accélérer le processus de vieillissement et donc d'apparition d'erreurs, nous utilisons une technique standard, consistant à faire fonctionner les processeurs à des températures élevées. Ce papier introduit les phénomènes physiques et l'état de l'art liés aux méthodes de caractérisation des erreurs physiques. Nous présentons ensuite notre adaptation de ces protocoles au cas des GPU NVIDIA ainsi que nos premiers résultats. Ces derniers montrent comment et où ces erreurs se produisent.
Complete list of metadatas

Cited literature [1 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-00785386
Contributor : David Defour <>
Submitted on : Wednesday, February 6, 2013 - 10:14:14 AM
Last modification on : Saturday, April 25, 2020 - 1:26:17 AM
Document(s) archivé(s) le : Saturday, April 1, 2017 - 4:50:08 PM

File

GPU_burn.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-00785386, version 1

Collections

Citation

David Defour, Eric Petit. Températures, erreurs matérielles et GPU. ComPAS: Conférence en Parallélisme, Architecture et Système, Jan 2013, Grenoble, France. pp.1-11. ⟨hal-00785386⟩

Share

Metrics

Record views

262

Files downloads

593