Title:Adversar A3C pentru învățare robustă prin întărire
Download PDF
Abstract: Asynchronous Advantage Actor Critic (A3C) este un algoritm eficient de ReinforcementLearning (RL) pentru o gamă largă de sarcini, cum ar fi jocurile Atari și controlul roboților. Agentul învață politicile și funcția de valoare prin interacțiuni de tip trial-and-error cu mediul până când converge la o politică optimă. Robustețea și stabilitatea sunt esențiale în RL; cu toate acestea, rețeaua neuronală poate fi vulnerabilă la zgomote din surse neașteptate și este puțin probabil să reziste la perturbații foarte ușoare. Observăm că agenții generați din medii ușoare folosind A3C nu sunt capabili să facă față mediilor dificile. Învățând din exemple adverse, am propus un algoritm numit Adversary Robust A3C (AR-A3C) pentru a îmbunătăți performanța agentului în medii zgomotoase. În acest algoritm, un agent adversar este introdus în procesul de învățare pentru a-l face mai robust împotriva perturbațiilor adversare, făcându-l astfel mai adaptabil la mediile zgomotoase. Atât simulările, cât și experimentele din lumea reală sunt efectuate pentru a ilustra stabilitatea algoritmului propus. Algoritmul AR-A3C depășește A3C atât în medii curate, cât și în medii zgomotoase.