Title:Adversary A3C for Robust Reinforcement Learning
Lataa PDF
Tiivistelmä: Asynchronous Advantage Actor Critic (A3C) on tehokas ReinforcementLearning (RL) -algoritmi monenlaisiin tehtäviin, kuten Atari-peleihin jarobottiohjaukseen. Agentti oppii toimintatapoja ja arvofunktiota kokeilemalla ja erehtymällä vuorovaikutuksessa ympäristön kanssa, kunnes konvergoituu optimaaliseen toimintatapaan. Robustisuus ja vakaus ovat ratkaisevan tärkeitä RL:ssä; neuroverkko voi kuitenkin olla altis odottamattomista lähteistä peräisin olevalle kohinalle, eikä se todennäköisesti kestä hyvin pieniä häiriöitä. Huomaamme, että A3C:n avulla lievästä ympäristöstä luodut agentit eivät pysty käsittelemään haastavia ympäristöjä. Oppimalla vastakohtaisista esimerkeistä ehdotimme algoritmia nimeltä Adversary Robust A3C (AR-A3C), jolla parannetaan agentin suorituskykyä meluisissa ympäristöissä. Tässä algoritmissa oppimisprosessiin lisätään vastapuoliagentti, jotta se olisi kestävämpi vastapuolen häiriöitä vastaan, jolloin se sopeutuu paremmin meluisiin ympäristöihin. Ehdotetun algoritmin vakauden havainnollistamiseksi tehdään sekä simulaatioita että reaalimaailman kokeita. AR-A3-algoritmi päihittää A3C-algoritmin sekä puhtaissa että meluisissa ympäristöissä.