Title:Adversary A3C for Robust Reinforcement Learning
Download PDF
Abstract: Asynchronous Advantage Actor Critic (A3C) é um algoritmo eficaz de ReinforcementLearning (RL) para uma vasta gama de tarefas, tais como jogos Atari e controle de robôs. O agente aprende políticas e funções de valor através de interações de teste e erro com o ambiente até convergir para uma política anóplia. A robustez e estabilidade são críticas na RL; no entanto, a rede neural pode ser vulnerável ao ruído de fontes inesperadas e não é provável que suporte perturbações muito ligeiras. Observamos que agentes gerados a partir de ambiente leitoso usando A3C não são capazes de lidar com ambientes desafiadores. Aprendendo com exemplos contraditórios, propusemos um algoritmo chamado Adversary Robust A3C(AR-A3C) para melhorar o desempenho do agente sob ambientes ruidosos. Neste algoritmo, um agente adversário é introduzido ao processo de aprendizagem para torná-lo mais robusto contra distúrbios adversos, tornando-o assim mais adaptável a ambientes ruidosos. Tanto simulações como experimentos no mundo real são realizados para ilustrar a estabilidade do algoritmo proposto. O AR-A3Calgoritmo supera o A3C, tanto em ambientes limpos como ruidosos.