Title:Adversary A3C for Robust Reinforcement Learning
Download PDF
Abstract: Asynchronous Advantage Actor Critic (A3C) är en effektiv algoritm för förstärkningsinlärning (RL) för ett stort antal uppgifter, t.ex. Atari-spel och robotkontroll. Agenten lär sig strategier och värdefunktioner genom försök och felinteraktioner med miljön tills den konvergerar mot en optimal strategi. Robusthet och stabilitet är avgörande för RL, men neurala nätverk kan vara känsliga för brus från oväntade källor och klarar sannolikt inte av mycket små störningar. Vi noterar att agenter som genereras från en mild miljö med hjälp av A3C inte kan hantera utmanande miljöer. Genom att lära oss av exempel på motståndare föreslår vi en algoritm som kallas Adversary Robust A3C (AR-A3C) för att förbättra agentens prestanda i bullriga miljöer. I denna algoritm införs en motståndaragent i inlärningsprocessen för att göra den mer robust mot motståndarstörningar, vilket gör den mer anpassningsbar till bullriga miljöer. Både simuleringar och experiment i verkligheten genomförs för att illustrera stabiliteten hos den föreslagna algoritmen. AR-A3-kalgoritmen presterar bättre än A3C i både rena och bullriga miljöer.