RL Pong

La tesis RL Pong evalúa tres algoritmos de aprendizaje por refuerzo (PPO, DQN y A2C) en el entorno del juego Pong para determinar su desempeño en términos de estabilidad, recompensa acumulada y velocidad de convergencia. PPO demostró ser el más eficaz, alcanzando altas recompensas y estabilidad, mie...

Full description

Autores:
Fonseca García, Alan Snade
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2024
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/75541
Acceso en línea:
https://hdl.handle.net/1992/75541
Palabra clave:
Aprendizaje por refuerzo (Reinforcement Learning)
Pong
Inteligencia artificial
Redes neuronales convolucionales (CNN)
Optimización de políticas
Evaluación de modelos
Hiperparámetros
Comparación de algoritmos
Proximal Policy Optimization (PPO)
Deep Q-Network (DQN)
Advantage Actor-Critic (A2C)
Ingeniería
Rights
openAccess
License
Attribution 4.0 International
Description
Summary:La tesis RL Pong evalúa tres algoritmos de aprendizaje por refuerzo (PPO, DQN y A2C) en el entorno del juego Pong para determinar su desempeño en términos de estabilidad, recompensa acumulada y velocidad de convergencia. PPO demostró ser el más eficaz, alcanzando altas recompensas y estabilidad, mientras que DQN presentó limitaciones significativas debido a su incapacidad para capturar relaciones temporales complejas. A2C mostró un desempeño inicial prometedor, aunque con resultados inferiores, requiriendo ajustes adicionales. La tesis resalta el potencial de PPO para tareas de alta dimensionalidad y propone optimizar los modelos mediante extensiones de entrenamiento, ajuste de hiperparámetros y exploración de algoritmos más avanzados como SAC y TD3.