Transformations for Energy Efficient Accelerated Chain Matrix Multiplication (TEE-ACM 2)

Maxim Moraru; Mina Warnet; Julien Loiseau; Vinay Ramakrishnaiah; Nirmal Prajapati; Hyun Lim; Sumathi Lakshmiranganatha; Jamal Mohd-Yusof; Karen Tsai; Richard Berger; Patrick Mccormick

Poster De Conférence Année : 2022

Transformations for Energy Efficient Accelerated Chain Matrix Multiplication (TEE-ACM 2)

(1, 2) , (1, 2) , (3) , (3) , (3) , (3) , (3) , (3) , (3) , (3) , (3)

1
2
3

Maxim Moraru

Fonction : Auteur

Laboratoire d'Informatique en Calcul Intensif et Image pour la Simulation

Université de Reims Champagne-Ardenne

Mina Warnet

Fonction : Auteur

Laboratoire d'Informatique en Calcul Intensif et Image pour la Simulation

Université de Reims Champagne-Ardenne

Julien Loiseau

Fonction : Auteur

Los Alamos National Laboratory

Vinay Ramakrishnaiah

Fonction : Auteur

Los Alamos National Laboratory

Nirmal Prajapati

Fonction : Auteur

Los Alamos National Laboratory

Hyun Lim

Fonction : Auteur

Los Alamos National Laboratory

Sumathi Lakshmiranganatha

Fonction : Auteur

Los Alamos National Laboratory

Jamal Mohd-Yusof

Fonction : Auteur

Los Alamos National Laboratory

Karen Tsai

Fonction : Auteur

Los Alamos National Laboratory

Richard Berger

Fonction : Auteur

Los Alamos National Laboratory

Patrick Mccormick

Fonction : Auteur

Los Alamos National Laboratory

Résumé

GPU matrix chain multiplication serves as a basis for a wide range of scientific domains like computer graphics, physics, and machine learning. While its time performance was studied for years, there has been significantly less effort in optimizing its energy efficiency. GPU power consumption is heavily impacted by the number of data transfers performed. In fact, a data transfer from global memory needs a thousand times more energy than a double precision arithmetic operation. Thus, minimizing data transfers is key for reducing the energy consumption. We present an energy efficient solution for Matrix Chain Multiplication on GPUs that minimizes computation as well as off-chip data transfers. For this, optimizations at three different levels are provided. For a single matrix multiplication, we use a blocking strategy that allows us to achieve the minimum number of global memory loads for a given amount of shared memory. We extend our approach to three matrices to decrease the data transfers even further. Finally, we use a parenthesizing algorithm that minimizes the number of computations as well as memory transfers for a whole sequence of matrices.

Domaines

Autre [cs.OH]

Fichier principal

SC22_Poster_TEE-ACM.pdf (2.61 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Maxim Moraru : Connectez-vous pour contacter le contributeur

https://hal.science/hal-03872897

Soumis le : vendredi 25 novembre 2022-23:51:10

Dernière modification le : mardi 5 décembre 2023-10:36:06

Archivage à long terme le : dimanche 26 février 2023-19:59:40

Dates et versions

hal-03872897 , version 1 (25-11-2022)

Identifiants

HAL Id : hal-03872897 , version 1

Citer

Maxim Moraru, Mina Warnet, Julien Loiseau, Vinay Ramakrishnaiah, Nirmal Prajapati, et al.. Transformations for Energy Efficient Accelerated Chain Matrix Multiplication (TEE-ACM 2). Supercomputing, Nov 2022, Dallas, United States. ⟨hal-03872897⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

URCA LICIIS

60 Consultations

25 Téléchargements

Transformations for Energy Efficient Accelerated Chain Matrix Multiplication (TEE-ACM 2)

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager