Titre:Adversaire A3C pour l’apprentissage par renforcement robuste
Télécharger le PDF
Résumé : Asynchronous Advantage Actor Critic (A3C) est un algorithme d’apprentissage par renforcement (RL) efficace pour un large éventail de tâches, telles que les jeux Atari et le contrôle des robots. L’agent apprend des politiques et une fonction de valeur par des interactions essai-erreur avec l’environnement jusqu’à converger vers une politique optimale. La robustesse et la stabilité sont essentielles en RL ; cependant, le réseau neuronal peut être vulnérable au bruit provenant de sources inattendues et n’est pas susceptible de supporter de très légères perturbations. Nous notons que les agents générés à partir d’un environnement léger à l’aide d’A3C ne sont pas capables de gérer des environnements difficiles. À partir d’exemples contradictoires, nous avons proposé un algorithme appelé Adversary Robust A3C (AR-A3C) pour améliorer les performances de l’agent dans les environnements bruyants. Dans cet algorithme, un agent adverse est introduit dans le processus d’apprentissage pour le rendre plus robuste contre les perturbations adverses, ce qui le rend plus adaptable aux environnements bruyants. Des simulations et des expériences dans le monde réel sont effectuées pour illustrer la stabilité de l’algorithme proposé. L’algorithme AR-A3C surpasse A3C dans les environnements propres et bruyants.