Title:Adversary A3C for Robust Reinforcement Learning
Download PDF
Abstract: Asynchronous Advantage Actor Critic (A3C) is een effectief ReinforcementLearning (RL) algoritme voor een breed scala van taken, zoals Atari games en robot controle. De agent leert zijn beleid en waardefunctie door middel van trial-and-error interacties met de omgeving totdat hij convergeert naar een optimaal beleid. Robuustheid en stabiliteit zijn van cruciaal belang in RL; een neuraal netwerk kan echter kwetsbaar zijn voor ruis uit onverwachte bronnen en zal waarschijnlijk niet bestand zijn tegen zeer kleine verstoringen. We merken op dat agenten gegenereerd uit milde omgevingen met behulp van A3C niet in staat zijn om uitdagende omgevingen aan te kunnen. Lerend van vijandige voorbeelden, stelden we een algoritme voor genaamd Adversary Robust A3C (AR-A3C) om de prestatie van de agent te verbeteren onder lawaaierige omgevingen. In dit algoritme wordt een tegenstander geïntroduceerd in het leerproces om het robuuster te maken tegen vijandige verstoringen, waardoor het zich beter aanpast aan lawaaierige omgevingen. Zowel simulaties als experimenten in de praktijk worden uitgevoerd om de stabiliteit van het voorgestelde algoritme te illustreren. Het AR-A3algoritme presteert beter dan A3C, zowel in een schone omgeving als in een omgeving met veel ruis.