Jugando a Mejorar: Uso de DQN y PPO para la automatización de Space Invaders

Esta tesis investiga la aplicación de algoritmos de aprendizaje por refuerzo, específicamente Deep Q-Network (DQN) y Proximal Policy Optimization (PPO), para entrenar modelos capaces de jugar el clásico juego de Atari, Space Invaders. La investigación comenzó con el desarrollo de versiones propias d...

Full description

Autores:
Maldonado, Nicolás
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2024
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/75171
Acceso en línea:
https://hdl.handle.net/1992/75171
Palabra clave:
Aprendizaje por refuerzo
DQN
PPO
Stable Baselines 3
Space Invaders
Juegos de Atari
Aprendizaje automático
Inteligencia artificial
Ingeniería
Rights
openAccess
License
Attribution 4.0 International
Description
Summary:Esta tesis investiga la aplicación de algoritmos de aprendizaje por refuerzo, específicamente Deep Q-Network (DQN) y Proximal Policy Optimization (PPO), para entrenar modelos capaces de jugar el clásico juego de Atari, Space Invaders. La investigación comenzó con el desarrollo de versiones propias de estos algoritmos, diseñadas desde cero, con el objetivo de entender profundamente los mecanismos y desafíos del aprendizaje por refuerzo en entornos de juegos. Sin embargo, enfrentando limitaciones en el rendimiento y la complejidad técnica, se optó por utilizar implementaciones avanzadas de la biblioteca Stable Baselines 3, lo que resultó en una mejora significativa en los resultados experimentales. Los experimentos compararon las implementaciones originales y las optimizadas con un agente que actúa de manera aleatoria, demostrando la superioridad del aprendizaje estructurado. Esta comparativa no sólo validó la eficacia de las herramientas especializadas para enfrentar tareas complejas de aprendizaje automático, sino que también proporcionó insights sobre las limitaciones de las implementaciones iniciales. Este estudio destaca la importancia de seleccionar herramientas adecuadas y la ventaja de utilizar soluciones consolidadas para abordar problemas de aprendizaje por refuerzo, proporcionando un valioso aprendizaje sobre la implementación y optimización de estos algoritmos.