Title:Adversary A3C for Robust Reinforcement Learning
Download PDF
Abstract: Asynchronous Advantage Actor Critic (A3C) egy hatékony ReinforcementLearning (RL) algoritmus számos feladathoz, például Atari játékokhoz ésrobotok irányításához. Az ágens a környezettel való próba-hiba kölcsönhatásokon keresztül tanul politikákat és értékfüggvényeket, amíg egy optimális politikához nem konvergál. A robusztusság és a stabilitás kritikus fontosságú az RL-ben; a neurális hálózat azonban érzékeny lehet a váratlan forrásokból származó zajra, és nem valószínű, hogy ellenáll a nagyon kis zavaroknak. Megjegyezzük, hogy az A3C segítségével enyhe környezetből generált ágensek nem képesek kezelni a kihívást jelentő környezeteket. Az ellenséges példákból tanulva javasoltuk az Adversary Robust A3C (AR-A3C) nevű algoritmust, hogy javítsuk az ágens teljesítményét zajos környezetben. Ebben az algoritmusban egy ellenséges ágens kerül bevezetésre a tanulási folyamatba, hogy az robusztusabbá váljon az ellenséges zavarokkal szemben, és ezáltal jobban alkalmazkodjon a zajos környezetekhez. A javasolt algoritmus stabilitásának illusztrálására szimulációkat és valós kísérleteket is végeztünk. Az AR-A3 algoritmus mind tiszta, mind zajos környezetben felülmúlja az A3C algoritmust.