Título:Adversario A3C para el aprendizaje por refuerzo robusto
Descargar PDF
Resumen: Asynchronous Advantage Actor Critic (A3C) es un eficaz algoritmo de Aprendizaje por Refuerzo (RL) para una amplia gama de tareas, como los juegos Atari y el control de robots. El agente aprende las políticas y la función de valor mediante interacciones de ensayo y error con el entorno hasta converger en una política óptima. La robustez y la estabilidad son fundamentales en la RL; sin embargo, la red neuronal puede ser vulnerable al ruido procedente de fuentes inesperadas y no es probable que soporte perturbaciones muy leves. Observamos que los agentes generados a partir de un entorno suave utilizando A3C no son capaces de manejar entornos difíciles. Aprendiendo de los ejemplos adversarios, propusimos un algoritmo llamado Adversary Robust A3C (AR-A3C) para mejorar el rendimiento del agente en entornos ruidosos. En este algoritmo, se introduce un agente adversario en el proceso de aprendizaje para hacerlo más robusto contra las perturbaciones adversarias, haciéndolo así más adaptable a los entornos ruidosos. Para ilustrar la estabilidad del algoritmo propuesto se realizan simulaciones y experimentos en el mundo real. El algoritmo AR-A3 supera a A3C tanto en entornos limpios como ruidosos.