Jugando a Mejorar: Uso de DQN y PPO para la automatización de Space Invaders

Esta tesis investiga la aplicación de algoritmos de aprendizaje por refuerzo, específicamente Deep Q-Network (DQN) y Proximal Policy Optimization (PPO), para entrenar modelos capaces de jugar el clásico juego de Atari, Space Invaders. La investigación comenzó con el desarrollo de versiones propias d...

Full description

Autores:
Maldonado, Nicolás
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2024
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/75171
Acceso en línea:
https://hdl.handle.net/1992/75171
Palabra clave:
Aprendizaje por refuerzo
DQN
PPO
Stable Baselines 3
Space Invaders
Juegos de Atari
Aprendizaje automático
Inteligencia artificial
Ingeniería
Rights
openAccess
License
Attribution 4.0 International
id UNIANDES2_8e6f57e387b79ba9a58305dd1b080b4c
oai_identifier_str oai:repositorio.uniandes.edu.co:1992/75171
network_acronym_str UNIANDES2
network_name_str Séneca: repositorio Uniandes
repository_id_str
dc.title.spa.fl_str_mv Jugando a Mejorar: Uso de DQN y PPO para la automatización de Space Invaders
title Jugando a Mejorar: Uso de DQN y PPO para la automatización de Space Invaders
spellingShingle Jugando a Mejorar: Uso de DQN y PPO para la automatización de Space Invaders
Aprendizaje por refuerzo
DQN
PPO
Stable Baselines 3
Space Invaders
Juegos de Atari
Aprendizaje automático
Inteligencia artificial
Ingeniería
title_short Jugando a Mejorar: Uso de DQN y PPO para la automatización de Space Invaders
title_full Jugando a Mejorar: Uso de DQN y PPO para la automatización de Space Invaders
title_fullStr Jugando a Mejorar: Uso de DQN y PPO para la automatización de Space Invaders
title_full_unstemmed Jugando a Mejorar: Uso de DQN y PPO para la automatización de Space Invaders
title_sort Jugando a Mejorar: Uso de DQN y PPO para la automatización de Space Invaders
dc.creator.fl_str_mv Maldonado, Nicolás
dc.contributor.advisor.none.fl_str_mv Takahashi Rodríguez, Silvia
dc.contributor.author.none.fl_str_mv Maldonado, Nicolás
dc.subject.keyword.spa.fl_str_mv Aprendizaje por refuerzo
topic Aprendizaje por refuerzo
DQN
PPO
Stable Baselines 3
Space Invaders
Juegos de Atari
Aprendizaje automático
Inteligencia artificial
Ingeniería
dc.subject.keyword.none.fl_str_mv DQN
PPO
Stable Baselines 3
Space Invaders
Juegos de Atari
Aprendizaje automático
Inteligencia artificial
dc.subject.themes.spa.fl_str_mv Ingeniería
description Esta tesis investiga la aplicación de algoritmos de aprendizaje por refuerzo, específicamente Deep Q-Network (DQN) y Proximal Policy Optimization (PPO), para entrenar modelos capaces de jugar el clásico juego de Atari, Space Invaders. La investigación comenzó con el desarrollo de versiones propias de estos algoritmos, diseñadas desde cero, con el objetivo de entender profundamente los mecanismos y desafíos del aprendizaje por refuerzo en entornos de juegos. Sin embargo, enfrentando limitaciones en el rendimiento y la complejidad técnica, se optó por utilizar implementaciones avanzadas de la biblioteca Stable Baselines 3, lo que resultó en una mejora significativa en los resultados experimentales. Los experimentos compararon las implementaciones originales y las optimizadas con un agente que actúa de manera aleatoria, demostrando la superioridad del aprendizaje estructurado. Esta comparativa no sólo validó la eficacia de las herramientas especializadas para enfrentar tareas complejas de aprendizaje automático, sino que también proporcionó insights sobre las limitaciones de las implementaciones iniciales. Este estudio destaca la importancia de seleccionar herramientas adecuadas y la ventaja de utilizar soluciones consolidadas para abordar problemas de aprendizaje por refuerzo, proporcionando un valioso aprendizaje sobre la implementación y optimización de estos algoritmos.
publishDate 2024
dc.date.accessioned.none.fl_str_mv 2024-10-17T20:01:11Z
dc.date.available.none.fl_str_mv 2024-10-17T20:01:11Z
dc.date.issued.none.fl_str_mv 2024-05-30
dc.type.none.fl_str_mv Trabajo de grado - Pregrado
dc.type.driver.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.version.none.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.content.none.fl_str_mv Text
dc.type.redcol.none.fl_str_mv http://purl.org/redcol/resource_type/TP
format http://purl.org/coar/resource_type/c_7a1f
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/1992/75171
dc.identifier.instname.none.fl_str_mv instname:Universidad de los Andes
dc.identifier.reponame.none.fl_str_mv reponame:Repositorio Institucional Séneca
dc.identifier.repourl.none.fl_str_mv repourl:https://repositorio.uniandes.edu.co/
url https://hdl.handle.net/1992/75171
identifier_str_mv instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
repourl:https://repositorio.uniandes.edu.co/
dc.language.iso.none.fl_str_mv spa
language spa
dc.relation.references.none.fl_str_mv Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press.
Bertsekas, D. P., & Tsitsiklis, J. N. (1996). Neuro-Dynamic Programming. Athena Scientific.
Mnih, V., Kavukcuoglu, K., Silver, D., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529-533.
Van Hasselt, H., Guez, A., & Silver, D. (2016). Deep reinforcement learning with double Q-learning. In Proceedings of the AAAI Conference on Artificial Intelligence.
Schaul, T., Quan, J., Antonoglou, I., & Silver, D. (2016). Prioritized experience replay. In International Conference on Learning Representations (ICLR).
Schulman, J., Wolski, F., Dhariwal, P., et al. (2017). Proximal Policy Optimization Algorithms. arXiv preprint arXiv:1707.06347.
Kingma, D. P., & Ba, J. (2014). Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980.
Gymnasium documentation. Gymnasium Documentation. (n.d.). https://gymnasium.farama.org/index.html
Baselines3 docs- reliable reinforcement learning implementations. Stable. (n.d.). https://stable-baselines3.readthedocs.io/en/master
dc.rights.en.fl_str_mv Attribution 4.0 International
dc.rights.uri.none.fl_str_mv http://creativecommons.org/licenses/by/4.0/
dc.rights.accessrights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.none.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv Attribution 4.0 International
http://creativecommons.org/licenses/by/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.none.fl_str_mv 32 páginas
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de los Andes
dc.publisher.program.none.fl_str_mv Ingeniería de Sistemas y Computación
dc.publisher.faculty.none.fl_str_mv Facultad de Ingeniería
dc.publisher.department.none.fl_str_mv Departamento de Ingeniería de Sistemas y Computación
publisher.none.fl_str_mv Universidad de los Andes
institution Universidad de los Andes
bitstream.url.fl_str_mv https://repositorio.uniandes.edu.co/bitstreams/a291c25e-beef-4b6e-94b7-7a5b672ae3df/download
https://repositorio.uniandes.edu.co/bitstreams/75768021-07db-4758-97ee-dd7548981b91/download
https://repositorio.uniandes.edu.co/bitstreams/480bb39f-7c32-4405-82ab-0367ca36534c/download
https://repositorio.uniandes.edu.co/bitstreams/8bf77f94-b12b-4d57-b2bb-1ced1bddd40b/download
https://repositorio.uniandes.edu.co/bitstreams/e1e383c4-8cf9-4f00-9a20-3c081d2c0cfe/download
https://repositorio.uniandes.edu.co/bitstreams/1a20f5ce-9066-425d-9444-662af6ef5cce/download
https://repositorio.uniandes.edu.co/bitstreams/66da6d0f-7884-4237-80a1-31584e0896e5/download
https://repositorio.uniandes.edu.co/bitstreams/111cbb73-4e24-4b0a-b5b2-e423fbf6be6c/download
bitstream.checksum.fl_str_mv 79e8fd17f9da2b1e266c69e691ee74c2
a09ccf3fc2a97df45133ba622225b73e
0175ea4a2d4caec4bbcc37e300941108
ae9e573a68e7f92501b6913cc846c39f
162f14ffc3b87de79313ac13493e0051
2b01aa34bc458e29c4208f6047f6381e
c213dc54fad146245f5f167f622dcbbb
11631b8fc7009e4470e88fd03307ebec
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio institucional Séneca
repository.mail.fl_str_mv adminrepositorio@uniandes.edu.co
_version_ 1818112030430724096
spelling Takahashi Rodríguez, Silviavirtual::20079-1Maldonado, Nicolás2024-10-17T20:01:11Z2024-10-17T20:01:11Z2024-05-30https://hdl.handle.net/1992/75171instname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/Esta tesis investiga la aplicación de algoritmos de aprendizaje por refuerzo, específicamente Deep Q-Network (DQN) y Proximal Policy Optimization (PPO), para entrenar modelos capaces de jugar el clásico juego de Atari, Space Invaders. La investigación comenzó con el desarrollo de versiones propias de estos algoritmos, diseñadas desde cero, con el objetivo de entender profundamente los mecanismos y desafíos del aprendizaje por refuerzo en entornos de juegos. Sin embargo, enfrentando limitaciones en el rendimiento y la complejidad técnica, se optó por utilizar implementaciones avanzadas de la biblioteca Stable Baselines 3, lo que resultó en una mejora significativa en los resultados experimentales. Los experimentos compararon las implementaciones originales y las optimizadas con un agente que actúa de manera aleatoria, demostrando la superioridad del aprendizaje estructurado. Esta comparativa no sólo validó la eficacia de las herramientas especializadas para enfrentar tareas complejas de aprendizaje automático, sino que también proporcionó insights sobre las limitaciones de las implementaciones iniciales. Este estudio destaca la importancia de seleccionar herramientas adecuadas y la ventaja de utilizar soluciones consolidadas para abordar problemas de aprendizaje por refuerzo, proporcionando un valioso aprendizaje sobre la implementación y optimización de estos algoritmos.Pregrado32 páginasapplication/pdfspaUniversidad de los AndesIngeniería de Sistemas y ComputaciónFacultad de IngenieríaDepartamento de Ingeniería de Sistemas y ComputaciónAttribution 4.0 Internationalhttp://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Jugando a Mejorar: Uso de DQN y PPO para la automatización de Space InvadersTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_7a1fTexthttp://purl.org/redcol/resource_type/TPAprendizaje por refuerzoDQNPPOStable Baselines 3Space InvadersJuegos de AtariAprendizaje automáticoInteligencia artificialIngenieríaSutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press.Bertsekas, D. P., & Tsitsiklis, J. N. (1996). Neuro-Dynamic Programming. Athena Scientific.Mnih, V., Kavukcuoglu, K., Silver, D., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529-533.Van Hasselt, H., Guez, A., & Silver, D. (2016). Deep reinforcement learning with double Q-learning. In Proceedings of the AAAI Conference on Artificial Intelligence.Schaul, T., Quan, J., Antonoglou, I., & Silver, D. (2016). Prioritized experience replay. In International Conference on Learning Representations (ICLR).Schulman, J., Wolski, F., Dhariwal, P., et al. (2017). Proximal Policy Optimization Algorithms. arXiv preprint arXiv:1707.06347.Kingma, D. P., & Ba, J. (2014). Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980.Gymnasium documentation. Gymnasium Documentation. (n.d.). https://gymnasium.farama.org/index.htmlBaselines3 docs- reliable reinforcement learning implementations. Stable. (n.d.). https://stable-baselines3.readthedocs.io/en/master201921739Publicationhttps://scholar.google.es/citations?user=x7gjZ04AAAAJvirtual::20079-10000-0001-7971-8979virtual::20079-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000143898virtual::20079-17ab9a4e1-60f0-4e06-936b-39f2bf93d8a0virtual::20079-17ab9a4e1-60f0-4e06-936b-39f2bf93d8a0virtual::20079-1ORIGINALJugando a Mejorar.pdfJugando a Mejorar.pdfapplication/pdf1189070https://repositorio.uniandes.edu.co/bitstreams/a291c25e-beef-4b6e-94b7-7a5b672ae3df/download79e8fd17f9da2b1e266c69e691ee74c2MD51autorizacion tesis (1) 2.pdfautorizacion tesis (1) 2.pdfHIDEapplication/pdf291310https://repositorio.uniandes.edu.co/bitstreams/75768021-07db-4758-97ee-dd7548981b91/downloada09ccf3fc2a97df45133ba622225b73eMD52CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8908https://repositorio.uniandes.edu.co/bitstreams/480bb39f-7c32-4405-82ab-0367ca36534c/download0175ea4a2d4caec4bbcc37e300941108MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-82535https://repositorio.uniandes.edu.co/bitstreams/8bf77f94-b12b-4d57-b2bb-1ced1bddd40b/downloadae9e573a68e7f92501b6913cc846c39fMD54TEXTJugando a Mejorar.pdf.txtJugando a Mejorar.pdf.txtExtracted texttext/plain41865https://repositorio.uniandes.edu.co/bitstreams/e1e383c4-8cf9-4f00-9a20-3c081d2c0cfe/download162f14ffc3b87de79313ac13493e0051MD55autorizacion tesis (1) 2.pdf.txtautorizacion tesis (1) 2.pdf.txtExtracted texttext/plain2039https://repositorio.uniandes.edu.co/bitstreams/1a20f5ce-9066-425d-9444-662af6ef5cce/download2b01aa34bc458e29c4208f6047f6381eMD57THUMBNAILJugando a Mejorar.pdf.jpgJugando a Mejorar.pdf.jpgGenerated Thumbnailimage/jpeg5182https://repositorio.uniandes.edu.co/bitstreams/66da6d0f-7884-4237-80a1-31584e0896e5/downloadc213dc54fad146245f5f167f622dcbbbMD56autorizacion tesis (1) 2.pdf.jpgautorizacion tesis (1) 2.pdf.jpgGenerated Thumbnailimage/jpeg11117https://repositorio.uniandes.edu.co/bitstreams/111cbb73-4e24-4b0a-b5b2-e423fbf6be6c/download11631b8fc7009e4470e88fd03307ebecMD581992/75171oai:repositorio.uniandes.edu.co:1992/751712024-10-18 03:09:32.152http://creativecommons.org/licenses/by/4.0/Attribution 4.0 Internationalopen.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.coPGgzPjxzdHJvbmc+RGVzY2FyZ28gZGUgUmVzcG9uc2FiaWxpZGFkIC0gTGljZW5jaWEgZGUgQXV0b3JpemFjacOzbjwvc3Ryb25nPjwvaDM+CjxwPjxzdHJvbmc+UG9yIGZhdm9yIGxlZXIgYXRlbnRhbWVudGUgZXN0ZSBkb2N1bWVudG8gcXVlIHBlcm1pdGUgYWwgUmVwb3NpdG9yaW8gSW5zdGl0dWNpb25hbCBTw6luZWNhIHJlcHJvZHVjaXIgeSBkaXN0cmlidWlyIGxvcyByZWN1cnNvcyBkZSBpbmZvcm1hY2nDs24gZGVwb3NpdGFkb3MgbWVkaWFudGUgbGEgYXV0b3JpemFjacOzbiBkZSBsb3Mgc2lndWllbnRlcyB0w6lybWlub3M6PC9zdHJvbmc+PC9wPgo8cD5Db25jZWRhIGxhIGxpY2VuY2lhIGRlIGRlcMOzc2l0byBlc3TDoW5kYXIgc2VsZWNjaW9uYW5kbyBsYSBvcGNpw7NuIDxzdHJvbmc+J0FjZXB0YXIgbG9zIHTDqXJtaW5vcyBhbnRlcmlvcm1lbnRlIGRlc2NyaXRvcyc8L3N0cm9uZz4geSBjb250aW51YXIgZWwgcHJvY2VzbyBkZSBlbnbDrW8gbWVkaWFudGUgZWwgYm90w7NuIDxzdHJvbmc+J1NpZ3VpZW50ZScuPC9zdHJvbmc+PC9wPgo8aHI+CjxwPllvLCBlbiBtaSBjYWxpZGFkIGRlIGF1dG9yIGRlbCB0cmFiYWpvIGRlIHRlc2lzLCBtb25vZ3JhZsOtYSBvIHRyYWJham8gZGUgZ3JhZG8sIGhhZ28gZW50cmVnYSBkZWwgZWplbXBsYXIgcmVzcGVjdGl2byB5IGRlIHN1cyBhbmV4b3MgZGUgc2VyIGVsIGNhc28sIGVuIGZvcm1hdG8gZGlnaXRhbCB5L28gZWxlY3Ryw7NuaWNvIHkgYXV0b3Jpem8gYSBsYSBVbml2ZXJzaWRhZCBkZSBsb3MgQW5kZXMgcGFyYSBxdWUgcmVhbGljZSBsYSBwdWJsaWNhY2nDs24gZW4gZWwgU2lzdGVtYSBkZSBCaWJsaW90ZWNhcyBvIGVuIGN1YWxxdWllciBvdHJvIHNpc3RlbWEgbyBiYXNlIGRlIGRhdG9zIHByb3BpbyBvIGFqZW5vIGEgbGEgVW5pdmVyc2lkYWQgeSBwYXJhIHF1ZSBlbiBsb3MgdMOpcm1pbm9zIGVzdGFibGVjaWRvcyBlbiBsYSBMZXkgMjMgZGUgMTk4MiwgTGV5IDQ0IGRlIDE5OTMsIERlY2lzacOzbiBBbmRpbmEgMzUxIGRlIDE5OTMsIERlY3JldG8gNDYwIGRlIDE5OTUgeSBkZW3DoXMgbm9ybWFzIGdlbmVyYWxlcyBzb2JyZSBsYSBtYXRlcmlhLCB1dGlsaWNlIGVuIHRvZGFzIHN1cyBmb3JtYXMsIGxvcyBkZXJlY2hvcyBwYXRyaW1vbmlhbGVzIGRlIHJlcHJvZHVjY2nDs24sIGNvbXVuaWNhY2nDs24gcMO6YmxpY2EsIHRyYW5zZm9ybWFjacOzbiB5IGRpc3RyaWJ1Y2nDs24gKGFscXVpbGVyLCBwcsOpc3RhbW8gcMO6YmxpY28gZSBpbXBvcnRhY2nDs24pIHF1ZSBtZSBjb3JyZXNwb25kZW4gY29tbyBjcmVhZG9yIGRlIGxhIG9icmEgb2JqZXRvIGRlbCBwcmVzZW50ZSBkb2N1bWVudG8uPC9wPgo8cD5MYSBwcmVzZW50ZSBhdXRvcml6YWNpw7NuIHNlIGVtaXRlIGVuIGNhbGlkYWQgZGUgYXV0b3IgZGUgbGEgb2JyYSBvYmpldG8gZGVsIHByZXNlbnRlIGRvY3VtZW50byB5IG5vIGNvcnJlc3BvbmRlIGEgY2VzacOzbiBkZSBkZXJlY2hvcywgc2lubyBhIGxhIGF1dG9yaXphY2nDs24gZGUgdXNvIGFjYWTDqW1pY28gZGUgY29uZm9ybWlkYWQgY29uIGxvIGFudGVyaW9ybWVudGUgc2XDsWFsYWRvLiBMYSBwcmVzZW50ZSBhdXRvcml6YWNpw7NuIHNlIGhhY2UgZXh0ZW5zaXZhIG5vIHNvbG8gYSBsYXMgZmFjdWx0YWRlcyB5IGRlcmVjaG9zIGRlIHVzbyBzb2JyZSBsYSBvYnJhIGVuIGZvcm1hdG8gbyBzb3BvcnRlIG1hdGVyaWFsLCBzaW5vIHRhbWJpw6luIHBhcmEgZm9ybWF0byBlbGVjdHLDs25pY28sIHkgZW4gZ2VuZXJhbCBwYXJhIGN1YWxxdWllciBmb3JtYXRvIGNvbm9jaWRvIG8gcG9yIGNvbm9jZXIuPC9wPgo8cD5FbCBhdXRvciwgbWFuaWZpZXN0YSBxdWUgbGEgb2JyYSBvYmpldG8gZGUgbGEgcHJlc2VudGUgYXV0b3JpemFjacOzbiBlcyBvcmlnaW5hbCB5IGxhIHJlYWxpesOzIHNpbiB2aW9sYXIgbyB1c3VycGFyIGRlcmVjaG9zIGRlIGF1dG9yIGRlIHRlcmNlcm9zLCBwb3IgbG8gdGFudG8sIGxhIG9icmEgZXMgZGUgc3UgZXhjbHVzaXZhIGF1dG9yw61hIHkgdGllbmUgbGEgdGl0dWxhcmlkYWQgc29icmUgbGEgbWlzbWEuPC9wPgo8cD5FbiBjYXNvIGRlIHByZXNlbnRhcnNlIGN1YWxxdWllciByZWNsYW1hY2nDs24gbyBhY2Npw7NuIHBvciBwYXJ0ZSBkZSB1biB0ZXJjZXJvIGVuIGN1YW50byBhIGxvcyBkZXJlY2hvcyBkZSBhdXRvciBzb2JyZSBsYSBvYnJhIGVuIGN1ZXN0acOzbiwgZWwgYXV0b3IgYXN1bWlyw6EgdG9kYSBsYSByZXNwb25zYWJpbGlkYWQsIHkgc2FsZHLDoSBkZSBkZWZlbnNhIGRlIGxvcyBkZXJlY2hvcyBhcXXDrSBhdXRvcml6YWRvcywgcGFyYSB0b2RvcyBsb3MgZWZlY3RvcyBsYSBVbml2ZXJzaWRhZCBhY3TDumEgY29tbyB1biB0ZXJjZXJvIGRlIGJ1ZW5hIGZlLjwvcD4KPHA+U2kgdGllbmUgYWxndW5hIGR1ZGEgc29icmUgbGEgbGljZW5jaWEsIHBvciBmYXZvciwgY29udGFjdGUgY29uIGVsIDxhIGhyZWY9Im1haWx0bzpiaWJsaW90ZWNhQHVuaWFuZGVzLmVkdS5jbyIgdGFyZ2V0PSJfYmxhbmsiPkFkbWluaXN0cmFkb3IgZGVsIFNpc3RlbWEuPC9hPjwvcD4K