Donate to arXiv

Title:PANTHER: A Programmable Architecture for Neural Network Training Harnessing Energy-efficient ReRAM

Authors:Aayush Ankit, Izzat El Hajj, Sai Rahul Chalamalasetti, Sapan Agarwal, Matthew Marinella, Martin Foltin, John Paul Strachan, Dejan Milojicic, Wen-mei Hwu, Kaushik Roy

Download PDF

Abstract: The wide adoption of deep neural networks has been accompanied byever-increasing energy and performance demands due to the expensive nature oftraining them. W celu przyspieszenia treningu zaproponowano wiele specjalnych architektur: zarówno cyfrowych, jak i hybrydowych cyfrowo-analogowych wykorzystujących rezystancyjne poprzeczki RAM(ReRAM). Akceleratory oparte na ReRAM wykazały skuteczność poprzeczek ReRAM w wykonywaniu operacji mnożenia macierzy i wektorów, które są powszechne w treningu. Jednakże, nadal cierpią one na brak wydajności z powodu użycia szeregowych odczytów i zapisów do wykonania gradientu wagowego i kroku aktualizacji. Kilka prac zademonstrowało możliwość wykonywania zewnętrznych produktów w poprzeczkach, które mogą być użyte do realizacji gradientu wagowego i kroku aktualizacji bez użycia szeregowych odczytów i zapisów. Jednakże, prace te były ograniczone do operacji o niskiej precyzji, które nie są wystarczające dla typowych obciążeń treningowych. Ponadto, zostały one ograniczone do ograniczonego zestawu algorytmów szkoleniowych tylko dla warstw w pełni połączonych. Aby zaradzić tym ograniczeniom, proponujemy technikę bit-slicing dla zwiększenia precyzji zewnętrznych iloczynów opartych na pamięci ReRAM, która zasadniczo różni się od techniki bit-slicing tylko dla mnożenia macierzowo-wektorowego. Włączamy tę technikę do architektury acrossbar z trzema wariantami dostosowanymi do różnych algorytmów treningowych. Aby ocenić nasz projekt na różnych typach warstw w sieciach neuronowych (w pełni połączone, konwolucyjne, itd.) i algorytmach treningowych, opracowaliśmy PANTHER, programowalny przez ISA akcelerator treningowy ze wsparciem kompilatora. Nasza ocena pokazuje, że PANTHER osiąga 8,02, 54,21 i 103-krotną redukcję zużycia energii oraz 7,16, 4,02 i 16-krotną redukcję czasu wykonania w porównaniu z akceleratorami cyfrowymi, akceleratorami opartymi na pamięci ReRAM i procesorami graficznymi.

Dodaj komentarz