Hierarchical Approach for Deriving a Reproducible LU factorization

Roman Iakymchuk 1 Stef Graillat 2 David Defour 3 Enrique Quintana-Ortí 4
2 PEQUAN - Performance et Qualité des Algorithmes Numériques
LIP6 - Laboratoire d'Informatique de Paris 6
3 DALI - Digits, Architectures et Logiciels Informatiques
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier, UPVD - Université de Perpignan Via Domitia
Abstract : We propose a reproducible variant of the unblocked LU factorization for graphics processor units (GPUs). For this purpose, we build upon Level-1/2 BLAS kernels that deliver correctly-rounded and reproducible results for the dot (inner) product, vector scaling, and the matrix-vector product. In addition, we draw a strategy to enhance the accuracy of the triangular solve via iterative refinement. Following a bottom-up approach, we finally construct a reproducible unblocked implementation of the LU factorization for GPUs, which accommodates partial pivoting for stability and can be eventually integrated into a (blocked) high performance and stable algorithm for the LU factorization.
Type de document :
Pré-publication, Document de travail
2016
Liste complète des métadonnées

Littérature citée [37 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01419813
Contributeur : Roman Iakymchuk <>
Soumis le : mardi 18 avril 2017 - 07:49:53
Dernière modification le : samedi 25 novembre 2017 - 10:16:12
Document(s) archivé(s) le : mercredi 19 juillet 2017 - 12:21:25

Fichier

reprolu.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01419813, version 4

Collections

Citation

Roman Iakymchuk, Stef Graillat, David Defour, Enrique Quintana-Ortí. Hierarchical Approach for Deriving a Reproducible LU factorization. 2016. 〈hal-01419813v4〉

Partager

Métriques

Consultations de la notice

158

Téléchargements de fichiers

142