Implicit parallelism for neural network acceleration

Haoran Wang

Résumé

The Artificial Intelligence (Al) field has been growing with spectacular, high-profile successes in recent years and is applied in varieties of fields. Neural network (NN) based deep learning has shown outstanding learning capabilities with very good performance. A noticeable trend in neural networks is their exponential increase in size. Training an extensive network often takes weeks or even months, and the larger networks may usually exceed the memory limits. For these two reasons, bath academia and industry are beginning to train neural networks in a distributed way. Commonly partition methods used to distribute a neural network include data parallelism, operator-level model parallelism, pipeline model parallelism, etc. The optimal performance of a complex NN is usually obtained using a mixture of the above parallelism methods, which is called hybrid parallelism. Building a parallel plan requires parallel computing knowledge for Al researchers and also needs time and effort to design and verify performance. Academics have proposed methods such as OptCNN, Tofu, Piper, Alpa, etc., which can automatically give near-optimal hybrid plans. However, their cost models are ail based on the execution time of the profiling operator under particular hardware. This kind of approach introduces an expensive preparation effort without optimality guarantees. This thesis aims to circumvent the disadvantages of the state-of-the-art method and provide an efficient way to find an accurate hybrid parallel plan. Based on the BSP model, this thesis proposes HSM2DL that decouples the hardware from the parallel algorithm, thus eliminating the need for profiling on specific hardware for each operator. Based on the semantics of computing neural networks, the symbolic cost model can be transformed and reduced. This thesis proposes an algorithm that reduces the complexity of NP-hard search problems to linearity and can generate efficient hybrid parallel algorithms in seconds.

L'intelligence artificielle (IA) s'est développée ces dernières années avec des succès spectaculaires et très médiatisés. Elle est appliquée dans divers domaines. Les réseaux neuronaux ont démontré des capacités d'apprentissage avec de très bonnes performances. Une tendance notable des réseaux neuronaux est leur augmentation exponentielle en taille. La formation d'un réseau étendu prend souvent des semaines, voire des mois. Les plus grands réseaux peuvent généralement dépasser les limites de la mémoire. Pour ces deux raisons, l'académie et l'industrie commencent à entraîner des réseaux neuronaux de manière distribuée. Les performances optimales d'un réseau neuronal complexe sont généralement obtenues en utilisant un mélange des méthodes de parallélisme ci-dessus, que l'on appelle parallélisme hybride. L'élaboration d'un plan de parallélisme requiert des connaissances en calcul parallèle pour les chercheurs en IA et nécessite également des efforts pour vérifier les performances. Des chercheurs ont proposé des méthodes telles que OptCNN, Tofu, Piper, Alpa, etc., qui peuvent donner automatiquement des stratégies hybrides quasi optimales. Cependant, leurs modèles de coût sont tous basés sur le temps d'exécution de l'opérateur de profilage sous une machine particulière. Ce type d'approche introduit un effort de préparation coûteuse sans garantie d'optimalité. Cette thèse vise à contourner les inconvénients de la méthode de l'état de l'art et à fournir un moyen efficace de trouver un plan parallèle hybride précis. Basée sur le modèle BSP, cette thèse propose HSM2DL, qui découple le matériel de l'algorithme parallèle, éliminant ainsi le besoin de profilage sur un matériel spécifique pour chaque opérateur. En se basant sur la sémantique des réseaux de neurones informatiques, le modèle de coût symbolique peut être transformé et réduit. Cette thèse propose un algorithme qui réduit la complexité des problèmes de recherche NP-hard à la linéarité et peut générer des algorithmes parallèles hybrides efficaces en quelques secondes.

Implicit parallelism for neural network acceleration

Parallélisme implicite pour l'accélération de réseaux de neurones

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager