Title:PANTHER: A Programmable Architecture for Neural Network Training Harnessing Energy-efficient ReRAM
Descargar PDF
Resumen: La amplia adopción de las redes neuronales profundas ha ido acompañada de demandas de energía y rendimiento cada vez mayores debido a la naturaleza costosa de su entrenamiento. Se han propuesto numerosas arquitecturas de propósito especial para acelerar el entrenamiento: tanto digitales como híbridas digital-analógicas utilizando barras transversales de RAM resistiva (ReRAM). Los aceleradores basados en ReRAM han demostrado la eficacia de las barras cruzadas ReRAM en la realización de operaciones de multiplicación matricial-vectorial que son frecuentes en el entrenamiento. Sin embargo, siguen adoleciendo de ineficiencia debido al uso de lecturas y escrituras en serie para realizar el gradiente de pesos y el paso de actualización. Algunos trabajos han demostrado la posibilidad de realizar productos externos en barras cruzadas, que pueden utilizarse para realizar el gradiente de peso y el paso de actualización sin el uso de lecturas y escrituras en serie. Sin embargo, estos trabajos se han limitado a operaciones de baja precisión que no son suficientes para las cargas de trabajo de entrenamiento típicas. Además, se han limitado a un conjunto de algoritmos de entrenamiento para capas totalmente conectadas. Para hacer frente a estas limitaciones, proponemos una técnica de troceado de bits para mejorar la precisión de los productos externos basados en ReRAM, que es sustancialmente diferente del troceado de bits para la multiplicación vectorial de matrices únicamente. Incorporamos esta técnica en la arquitectura de acrossbar con tres variantes adaptadas a diferentes algoritmos de entrenamiento. Para evaluar nuestro diseño en diferentes tipos de capas en redes neuronales (totalmente conectadas, convolucionales, etc.) y algoritmos de entrenamiento, desarrollamos PANTHER, un acelerador de entrenamiento programable por ISA con soporte de compilador. Nuestra evaluación muestra que PANTHER consigue reducciones de energía de hasta 8,02 $, 54,21 $ y 103 $, así como reducciones de tiempo de ejecución de 7,16 $, 4,02 $ y 16 $, respectivamente, en comparación con los aceleradores digitales, los aceleradores basados en ReRAM y las GPU.