Title:Adversary A3C for Robust Reinforcement Learning
Download PDF
Abstract: Asynchronous Advantage Actor Critic (A3C) is an effective ReinforcementLearning (RL) algorithm for a wide range of tasks, such as Atari games androbot control. Agent uczy się polityki i funkcji wartości poprzez próbne i błędne interakcje ze środowiskiem, aż do osiągnięcia optymalnej polityki. Solidność i stabilność są krytyczne w RL; jednakże, sieć neuronowa może być podatna na szum z nieoczekiwanych źródeł i nie jest prawdopodobne, aby wytrzymać bardzo niewielkie zakłócenia. Zauważamy, że agenci wygenerowani z łagodnego środowiska za pomocą A3C nie są w stanie poradzić sobie z wymagającym środowiskiem. Opierając się na przykładach adwersarzy, zaproponowaliśmy algorytm zwany Adversary Robust A3C(AR-A3C), aby poprawić wydajność agenta w hałaśliwym środowisku. W algorytmie tym, do procesu uczenia wprowadzono agenta adwersarza, aby uczynić go bardziej odpornym na zakłócenia, a tym samym bardziej przystosowanym do hałaśliwych środowisk. W celu zilustrowania stabilności proponowanego algorytmu przeprowadzono zarówno symulacje, jak i eksperymenty w świecie rzeczywistym. Algorytm AR-A3Calgorithm przewyższa A3C zarówno w czystych jak i hałaśliwych środowiskach.