Donate to arXiv

Title:PANTHER: A Programmable Architecture for Neural Network Training Harnessing Energy-efficient ReRAM

Authors:Aayush Ankit, Izzat El Hajj, Sai Rahul Chalamalasetti, Sapan Agarwal, Matthew Marinella, Martin Foltin, John Paul Strachan, Dejan Milojicic, Wen-mei Hwu, Kaushik Roy

Download PDF

Abstract: The wide adoption of deep neural networks has been accompanied withever-ingreasing energy and performance demands due to the expensive nature oftraining them. Számos speciális célú architektúrát javasoltak a képzés felgyorsítására: mind digitális, mind hibrid digitális-analóg, rezisztív RAM (ReRAM) kereszttartók használatával. A ReRAM-alapú gyorsítók bizonyították a ReRAM-kereszttartók hatékonyságát a képzésben elterjedt mátrix-vektor szorzási műveletek elvégzésében. A súlygradiens és a frissítési lépés végrehajtásához szükséges soros olvasás és írás miatt azonban még mindig nem hatékonyak. Néhány munka bemutatta a kereszttartókban a külső termékek elvégzésének lehetőségét, amelyek a súlygradiens és a frissítési lépés megvalósítására használhatók a soros olvasás és írás használata nélkül. Ezek a munkák azonban alacsony pontosságú műveletekre korlátozódtak, amelyek nem elegendőek a tipikus képzési munkaterheléshez. Ráadásul csak a teljesen összekapcsolt rétegekre vonatkozó képzési algoritmusok korlátozott készletére korlátozódtak. E korlátozások kiküszöbölésére bit-szeletelési technikát javasolunk aReRAM-alapú külső termékek pontosságának növelésére, amely lényegesen különbözik a csak a mátrix-vektor-szorzásnál alkalmazott bit-szeleteléstől. Ezt a technikát beépítjük a crossbar architektúrába, amelynek három változata különböző képzési algoritmusokhoz igazodik. A neurális hálózatok különböző típusú rétegeire (teljesen összekapcsolt, konvolúciós stb.) és képzési algoritmusokra vonatkozó tervünk értékeléséhez kifejlesztettük a PANTHER-t, egy ISA-programozható képzési gyorsítót fordítói támogatással. Értékelésünk azt mutatja, hogy a PANTHER akár $8,02\times$, $54,21\times$ és $103\times$ energiacsökkentést, valamint $7,16\times$, $4,02\times$ és $16\times$ végrehajtási időcsökkentést ér el a digitális gyorsítókhoz, a ReRAM-alapú gyorsítókhoz és a GPU-khoz képest.

Szólj hozzá!