Title:PANTHER: A Programmable Architecture for Neural Network Training Harnessing Energy-efficient ReRAM
Download PDF
Rezumat: Adoptarea pe scară largă a rețelelor neuronale profunde a fost însoțită de cereri de energie și de performanță din ce în ce mai mari din cauza naturii costisitoare a instruirii acestora. Au fost propuse numeroase arhitecturi cu destinație specială pentruaccelerarea instruirii: atât digitale, cât și hibride digital-analogice care utilizează bare transversale RAM rezistive(ReRAM). Acceleratoarele bazate pe ReRAM au demonstrat eficacitatea barelor transversale ReRAM în efectuarea operațiilor de înmulțire matrice-vector care sunt predominante în instruire. Cu toate acestea, ele suferă încă de ineficiență din cauza utilizării citirilor și scrierilor în serie pentru realizarea gradientului de greutate și a etapei de actualizare. Câteva lucrări au demonstrat posibilitatea de a efectua produse exterioare în bare încrucișate, care pot fi utilizate pentru a realiza gradientul de greutate și etapa de actualizare fără a utiliza citiri și scrieri în serie. Cu toate acestea, aceste lucrări au fost limitate la operații de precizie redusă, care nu sunt suficiente pentru sarcini de lucru tipice de formare. În plus, acestea au fost limitate la o serie limitată de algoritmi de formare numai pentru straturi complet conectate. Pentru a remedia aceste limitări, propunem o tehnică de feliere de biți pentru îmbunătățirea preciziei produselor exterioare bazate pe ReRAM, care este substanțial diferită de tehnica de feliere de biți doar pentru înmulțirea matrice-vector. Încorporăm această tehnică în arhitectura acrossbar cu trei variante adaptate la diferite algoritmi de formare. Pentru a evalua proiectul nostru pe diferite tipuri de straturi din rețelele neuronale (complet conectate, convoluționale etc.) și algoritmi de formare, am dezvoltat PANTHER, un accelerator de formare programabil ISA cu suport de compilare. Evaluarea noastră arată că PANTHER realizează reduceri de energie de până la 8,02 $8,02\times$, 54,21\times$ și 103\times$, precum și reduceri ale timpului de execuție de 7,16\times$, 4,02\times$ și 16\times$ în comparație cu acceleratoarele digitale, acceleratoarele bazate pe ReRAM și, respectiv, cu GPU-urile.