Title:Adversary A3C for Robust Reinforcement Learning
Download PDF
Abstract: Asynchronous Advantage Actor Critic (A3C) ist ein effektiver ReinforcementLearning (RL)-Algorithmus für eine breite Palette von Aufgaben, wie Atari-Spiele und Robotersteuerung. Der Agent lernt durch Versuch-und-Irrtum-Interaktionen mit der Umwelt Strategien und Wertfunktionen, bis er zu einer optimalen Strategie konvergiert. Robustheit und Stabilität sind bei RL von entscheidender Bedeutung; neuronale Netze können jedoch anfällig für Rauschen aus unerwarteten Quellen sein und verkraften wahrscheinlich nicht einmal sehr geringe Störungen. Wir stellen fest, dass Agenten, die mit Hilfe von A3C in einer milden Umgebung erzeugt wurden, nicht in der Lage sind, mit schwierigen Umgebungen umzugehen. Anhand von Beispielen aus der Praxis haben wir einen Algorithmus namens Adversary Robust A3C (AR-A3C) vorgeschlagen, um die Leistung des Agenten in verrauschten Umgebungen zu verbessern. In diesem Algorithmus wird ein gegnerischer Agent in den Lernprozess eingeführt, um ihn robuster gegen gegnerische Störungen zu machen und ihn dadurch anpassungsfähiger an verrauschte Umgebungen zu machen. Es werden sowohl Simulationen als auch reale Experimente durchgeführt, um die Stabilität des vorgeschlagenen Algorithmus zu veranschaulichen. Der AR-A3-Algorithmus übertrifft den A3C-Algorithmus sowohl in sauberen als auch in verrauschten Umgebungen.