Title:PANTHER: A Programmable Architecture for Neural Network Training Harnessing Energy-efficient ReRAM
Download PDF
Resumo: A ampla adoção de redes neurais profundas tem sido acompanhada por demandas cada vez maiores de energia e desempenho, devido à natureza dispendiosa do treinamento. Numerosas arquiteturas de propósito especial foram propostas para acelerar o treinamento: tanto digital como híbrido digital-analógico usando barras resistivas de RAM(ReRAM). Os aceleradores baseados em ReRAM têm demonstrado a eficácia das barras transversais ReRAM na realização de operações de multiplicação matriz-vetor que são predominantes no treinamento. Entretanto, eles ainda sofrem de ineficiência devido ao uso de leituras e escritas em série para realizar o gradiente de peso e o passo de atualização. Alguns trabalhos têm demonstrado a possibilidade de realizar produtos externos em barras transversais, que podem ser utilizados para realizar o gradiente de peso e o passo de atualização sem o uso de leituras e gravações em série. No entanto, estes trabalhos têm sido limitados a operações de baixa precisão que não são suficientes para cargas de trabalho de treinamento atípico. Além disso, eles foram confinados a um número limitado de algoritmos de treinamento para camadas totalmente conectadas. Para tratar destas similaridades, propomos uma técnica de separação de bits para melhorar a precisão dos produtos externos baseados emReRAM, que é substancialmente diferente da separação de bits apenas para multiplicação matriz-vetor. Incorporamos esta técnica na arquitetura de acrossbar com três variantes atendidas a diferentes amálgamas de treinamento. Para avaliar nosso design em diferentes tipos de camadas em redes neurais (totalmente conectados, convolucionais, etc.) e algoritmos de treinamento, desenvolvemos Wedevelop PANTHER, um acelerador de treinamento programável ISA com suporte de compiladores. Nossa avaliação mostra que o PANTHER atinge até $8,02\times$,$54,21\times$, e $103\times$ reduções de energia assim como $7,16\times$,$4,02\times$, e $16\times$ reduções de tempo de execução em relação aos aceleradores digitais, aceleradores baseados em ReRAM, e GPUs, respectivamente.