Title:PANTHER: A Programmable Architecture for Neural Network Training Harnessing Energy-efficient ReRAM
Download PDF
Abstract: L’ampia adozione delle reti neurali profonde è stata accompagnata da sempre maggiori richieste di energia e prestazioni a causa della natura costosa del loro allenamento. Numerose architetture speciali sono state proposte per accelerare l’addestramento: sia digitale che ibrido digitale-analogico utilizzando barre trasversali di RAM resistiva (ReRAM). Gli acceleratori basati su ReRAM hanno dimostrato l’efficacia delle barre trasversali ReRAM nell’eseguire operazioni di moltiplicazione matrice-vettore che sono prevalenti nella formazione. Tuttavia, soffrono ancora di inefficienza dovuta all’uso di letture e scritture seriali per eseguire il gradiente di peso e il passo di aggiornamento. Alcuni lavori hanno dimostrato la possibilità di eseguire prodotti esterni nelle barre trasversali, che possono essere utilizzati per realizzare il gradiente di peso e la fase di aggiornamento senza l’uso di letture e scritture seriali. Tuttavia, questi lavori sono stati limitati a operazioni a bassa precisione che non sono sufficienti per i carichi di lavoro di formazione tipici. Inoltre, sono stati confinati a un set limitato di algoritmi di addestramento solo per gli strati completamente connessi. Per affrontare queste limitazioni, proponiamo una tecnica di bit-slicing per migliorare la precisione dei prodotti esterni basati sulla RAM, che è sostanzialmente diversa dal bit-slicing per la sola moltiplicazione matrice-vettore. Incorporiamo questa tecnica nell’architettura acrossbar con tre varianti che si adattano a diversi algoritmi di formazione. Per valutare il nostro design su diversi tipi di strati nelle reti neurali (completamente connessi, convoluzionali, ecc.) e algoritmi di addestramento, sviluppiamo PANTHER, un acceleratore di addestramento programmabile in ISA con supporto di compilatore. La nostra valutazione mostra che PANTHER raggiunge fino a $8,02 volte$, $54,21 volte$ e $103 volte$ di riduzione dell’energia e $7,16 volte$, $4,02 volte$ e $16 volte$ di riduzione del tempo di esecuzione rispetto agli acceleratori digitali, agli acceleratori basati su ReRAM e alle GPU, rispettivamente.