RL Pong
La tesis RL Pong evalúa tres algoritmos de aprendizaje por refuerzo (PPO, DQN y A2C) en el entorno del juego Pong para determinar su desempeño en términos de estabilidad, recompensa acumulada y velocidad de convergencia. PPO demostró ser el más eficaz, alcanzando altas recompensas y estabilidad, mie...
- Autores:
-
Fonseca García, Alan Snade
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2024
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/75541
- Acceso en línea:
- https://hdl.handle.net/1992/75541
- Palabra clave:
- Aprendizaje por refuerzo (Reinforcement Learning)
Pong
Inteligencia artificial
Redes neuronales convolucionales (CNN)
Optimización de políticas
Evaluación de modelos
Hiperparámetros
Comparación de algoritmos
Proximal Policy Optimization (PPO)
Deep Q-Network (DQN)
Advantage Actor-Critic (A2C)
Ingeniería
- Rights
- openAccess
- License
- Attribution 4.0 International
Summary: | La tesis RL Pong evalúa tres algoritmos de aprendizaje por refuerzo (PPO, DQN y A2C) en el entorno del juego Pong para determinar su desempeño en términos de estabilidad, recompensa acumulada y velocidad de convergencia. PPO demostró ser el más eficaz, alcanzando altas recompensas y estabilidad, mientras que DQN presentó limitaciones significativas debido a su incapacidad para capturar relaciones temporales complejas. A2C mostró un desempeño inicial prometedor, aunque con resultados inferiores, requiriendo ajustes adicionales. La tesis resalta el potencial de PPO para tareas de alta dimensionalidad y propone optimizar los modelos mediante extensiones de entrenamiento, ajuste de hiperparámetros y exploración de algoritmos más avanzados como SAC y TD3. |
---|