Title:Adversary A3C for Robust Reinforcement Learning
Stáhnout PDF
Abstrakt: Asynchronní Advantage Actor Critic (A3C) je efektivní algoritmus ReinforcementLearning (RL) pro širokou škálu úloh, jako jsou hry Atari a řízení robotů. Agent se učí politiku a hodnotovou funkci prostřednictvím interakcí s prostředím metodou pokus-omyl, dokud nedojde ke konvergenci k optimální politice. Robustnost a stabilita jsou v RL kritické; neuronová síť však může být zranitelná šumem z neočekávaných zdrojů a není pravděpodobné, že by odolala velmi malým poruchám. Poznamenáváme, že agenti vygenerovaní z mírného prostředí pomocí A3C nejsou schopni zvládnout náročné prostředí. Poučeni z protichůdných příkladů jsme navrhli algoritmus nazvaný Adversary Robust A3C(AR-A3C), který zlepšuje výkon agenta v rušivých prostředích. V tomto algoritmu je do procesu učení zaveden protivníkův agent, aby byl odolnější vůči protivníkovým poruchám, čímž se stává adaptivnějším vůči hlučným prostředím. Pro ilustraci stability navrženého algoritmu jsou provedeny simulace i reálné experimenty. Kalgoritmus AR-A3 překonává algoritmus A3C jak v čistém, tak v hlučném prostředí.