Title:Adversary A3C for Robust Reinforcement Learning
Download PDF
Resumé: Asynchronous Advantage Actor Critic (A3C) er en effektiv ReinforcementLearning (RL) algoritme til en lang række opgaver, såsom Atari-spil og robotkontrol. Agenten lærer politikker og værdifunktioner gennem forsøgs- og fejlinteraktioner med omgivelserne, indtil den konvergerer mod en optimal politik. Robusthed og stabilitet er afgørende i RL; neurale netværk kan imidlertid være sårbare over for støj fra uventede kilder og er ikke tilbøjelige til at modstå meget små forstyrrelser. Vi bemærker, at agenter, der er genereret fra milde miljøer ved hjælp af A3C, ikke er i stand til at håndtere udfordrende miljøer. På baggrund af eksempler på modstandere har vi foreslået en algoritme kaldet Adversary Robust A3C (AR-A3C) for at forbedre agentens ydeevne under støjende miljøer. I denne algoritme introduceres en modstanderagenten i indlæringsprocessen for at gøre den mere robust over for modstanderforstyrrelser og derved gøre den mere tilpasningsdygtig til støjende miljøer. Der gennemføres både simuleringer og eksperimenter i den virkelige verden for at illustrere den foreslåede algoritmes stabilitet. AR-A3-kalgoritmen klarer sig bedre end A3C i både rene og støjfyldte miljøer.