Title:Adversary A3C for Robust Reinforcement Learning
Authors: A3C for Robust Reinforcement Learning (逆張り強化学習):Zhaoyuan Gu, Zhenzhong Jia, Howie Choset
Download PDF
Abstract: Asynchronous Advantage Actor Critic (A3C) は、アタリゲームやロボット制御など、幅広いタスクに有効なReinforcementLearning (RL) のアルゴリズムである。 エージェントは、最適な政策に収束するまで、環境との試行錯誤的な相互作用を通じて、政策と価値関数を学習する。 RLではロバスト性と安定性が重要であるが、ニューラルネットワークは予期せぬソースからのノイズに弱く、ごくわずかな外乱には耐えられない可能性がある。 また、A3Cを用いた穏やかな環境から生成されたエージェントは、厳しい環境には対応できないことが分かっています。 そこで、我々は敵対的な事例から学び、ノイズ環境下でのエージェントの性能を向上させるAdversary Robust A3C(AR-A3C) と呼ばれるアルゴリズムを提案した。 このアルゴリズムでは、敵対的なエージェントを学習プロセスに導入することで、敵対的な妨害に対してより頑健にし、ノイズの多い環境に対してより適応的にすることができる。 提案アルゴリズムの安定性を説明するために、シミュレーションと実世界実験の両方を行う。 AR-A3Calgorithmは、クリーンな環境とノイズの多い環境の両方において、A3Cを凌駕する性能を示した。