Title:Adversary A3C for Robust Reinforcement Learning
Download PDF
Abstract: Asynchronous Advantage Actor Critic (A3C) è un efficace algoritmo di ReinforcementLearning (RL) per una vasta gamma di compiti, come i giochi Atari e il controllo dei robot. L’agente impara politiche e funzioni di valore attraverso interazioni di prova ed errore con l’ambiente fino a convergere verso una politica ottimale. La robustezza e la stabilità sono fondamentali nella RL; tuttavia, la rete neurale può essere vulnerabile al rumore da fonti inaspettate e non è probabile che resista a disturbi molto lievi. Notiamo che gli agenti generati da un ambiente mite utilizzando A3C non sono in grado di gestire ambienti difficili. Imparando dagli esempi avversari, abbiamo proposto un algoritmo chiamato Adversary Robust A3C (AR-A3C) per migliorare le prestazioni dell’agente in ambienti rumorosi. In questo algoritmo, un agente avversario viene introdotto nel processo di apprendimento per renderlo più robusto contro i disturbi avversari, rendendolo così più adattivo agli ambienti rumorosi. Sia le simulazioni che gli esperimenti del mondo reale sono condotti per illustrare la stabilità dell’algoritmo proposto. L’AR-A3Calgoritmo supera A3C sia in ambienti puliti che rumorosi.