RL Pong

La tesis RL Pong evalúa tres algoritmos de aprendizaje por refuerzo (PPO, DQN y A2C) en el entorno del juego Pong para determinar su desempeño en términos de estabilidad, recompensa acumulada y velocidad de convergencia. PPO demostró ser el más eficaz, alcanzando altas recompensas y estabilidad, mie...

Full description

Autores:
Fonseca García, Alan Snade
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2024
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/75541
Acceso en línea:
https://hdl.handle.net/1992/75541
Palabra clave:
Aprendizaje por refuerzo (Reinforcement Learning)
Pong
Inteligencia artificial
Redes neuronales convolucionales (CNN)
Optimización de políticas
Evaluación de modelos
Hiperparámetros
Comparación de algoritmos
Proximal Policy Optimization (PPO)
Deep Q-Network (DQN)
Advantage Actor-Critic (A2C)
Ingeniería
Rights
openAccess
License
Attribution 4.0 International
id UNIANDES2_4cf239aee76cd0e00c5deb0cf7f35409
oai_identifier_str oai:repositorio.uniandes.edu.co:1992/75541
network_acronym_str UNIANDES2
network_name_str Séneca: repositorio Uniandes
repository_id_str
dc.title.none.fl_str_mv RL Pong
title RL Pong
spellingShingle RL Pong
Aprendizaje por refuerzo (Reinforcement Learning)
Pong
Inteligencia artificial
Redes neuronales convolucionales (CNN)
Optimización de políticas
Evaluación de modelos
Hiperparámetros
Comparación de algoritmos
Proximal Policy Optimization (PPO)
Deep Q-Network (DQN)
Advantage Actor-Critic (A2C)
Ingeniería
title_short RL Pong
title_full RL Pong
title_fullStr RL Pong
title_full_unstemmed RL Pong
title_sort RL Pong
dc.creator.fl_str_mv Fonseca García, Alan Snade
dc.contributor.advisor.none.fl_str_mv Takahashi Rodríguez, Silvia
dc.contributor.author.none.fl_str_mv Fonseca García, Alan Snade
dc.contributor.jury.none.fl_str_mv Takahashi Rodríguez, Silvia
dc.subject.keyword.spa.fl_str_mv Aprendizaje por refuerzo (Reinforcement Learning)
Pong
Inteligencia artificial
Redes neuronales convolucionales (CNN)
Optimización de políticas
Evaluación de modelos
Hiperparámetros
Comparación de algoritmos
topic Aprendizaje por refuerzo (Reinforcement Learning)
Pong
Inteligencia artificial
Redes neuronales convolucionales (CNN)
Optimización de políticas
Evaluación de modelos
Hiperparámetros
Comparación de algoritmos
Proximal Policy Optimization (PPO)
Deep Q-Network (DQN)
Advantage Actor-Critic (A2C)
Ingeniería
dc.subject.keyword.eng.fl_str_mv Proximal Policy Optimization (PPO)
Deep Q-Network (DQN)
Advantage Actor-Critic (A2C)
dc.subject.themes.none.fl_str_mv Ingeniería
description La tesis RL Pong evalúa tres algoritmos de aprendizaje por refuerzo (PPO, DQN y A2C) en el entorno del juego Pong para determinar su desempeño en términos de estabilidad, recompensa acumulada y velocidad de convergencia. PPO demostró ser el más eficaz, alcanzando altas recompensas y estabilidad, mientras que DQN presentó limitaciones significativas debido a su incapacidad para capturar relaciones temporales complejas. A2C mostró un desempeño inicial prometedor, aunque con resultados inferiores, requiriendo ajustes adicionales. La tesis resalta el potencial de PPO para tareas de alta dimensionalidad y propone optimizar los modelos mediante extensiones de entrenamiento, ajuste de hiperparámetros y exploración de algoritmos más avanzados como SAC y TD3.
publishDate 2024
dc.date.issued.none.fl_str_mv 2024-12-08
dc.date.accessioned.none.fl_str_mv 2025-01-21T19:56:22Z
dc.date.available.none.fl_str_mv 2025-01-21T19:56:22Z
dc.type.none.fl_str_mv Trabajo de grado - Pregrado
dc.type.driver.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.version.none.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.content.none.fl_str_mv Text
dc.type.redcol.none.fl_str_mv http://purl.org/redcol/resource_type/TP
format http://purl.org/coar/resource_type/c_7a1f
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/1992/75541
dc.identifier.instname.none.fl_str_mv instname:Universidad de los Andes
dc.identifier.reponame.none.fl_str_mv reponame:Repositorio Institucional Séneca
dc.identifier.repourl.none.fl_str_mv repourl:https://repositorio.uniandes.edu.co/
url https://hdl.handle.net/1992/75541
identifier_str_mv instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
repourl:https://repositorio.uniandes.edu.co/
dc.language.iso.none.fl_str_mv spa
language spa
dc.relation.references.none.fl_str_mv Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. Disponible en: https://www.deeplearningbook.org.
Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., ... & Hassabis, D. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529–533. https://doi.org/10.1038/nature14236.
Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal Policy Optimization Algorithms. arXiv preprint arXiv:1707.06347.
Mnih, V., Badia, A. P., Mirza, M., Graves, A., Harley, T., Lillicrap, T., ... & Kavukcuoglu, K. (2016). Asynchronous methods for deep reinforcement learning. Proceedings of the 33rd International Conference on Machine Learning (ICML). https://arxiv.org/abs/1602.01783.
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. Disponible en: http://incompleteideas.net/book/the-book-2nd.html
Raffin, A., Hill, A., Gleave, A., Kanervisto, A., Ernestus, M., & Dormann, N. (2021). Stable-Baselines3: Reliable Reinforcement Learning Implementations. Journal of Machine Learning Research (JMLR). Disponible en: https://github.com/DLR-RM/stable-baselines3
OpenAI. (2024). Implementación propuesta del modelo Advantage Actor-Critic (A2C) para el entorno Pong en Stable-Baselines3. Texto generado por el modelo ChatGPT. Recuperado de https://chat.openai.com/.
dc.rights.en.fl_str_mv Attribution 4.0 International
dc.rights.uri.none.fl_str_mv http://creativecommons.org/licenses/by/4.0/
dc.rights.accessrights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.none.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv Attribution 4.0 International
http://creativecommons.org/licenses/by/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.none.fl_str_mv 20 páginas
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de los Andes
dc.publisher.program.none.fl_str_mv Ingeniería de Sistemas y Computación
dc.publisher.faculty.none.fl_str_mv Facultad de Ingeniería
dc.publisher.department.none.fl_str_mv Departamento de Ingeniería Sistemas y Computación
publisher.none.fl_str_mv Universidad de los Andes
institution Universidad de los Andes
bitstream.url.fl_str_mv https://repositorio.uniandes.edu.co/bitstreams/d0d9da49-b47c-423f-9718-0a6e02f08a39/download
https://repositorio.uniandes.edu.co/bitstreams/3215c96d-947c-4603-aec6-3ae325170dae/download
https://repositorio.uniandes.edu.co/bitstreams/5af6d0af-4008-454f-a6dd-7816e48dbc64/download
https://repositorio.uniandes.edu.co/bitstreams/f87101e1-fdb7-48aa-8079-b3cbe3bb2e4a/download
https://repositorio.uniandes.edu.co/bitstreams/6cc82f05-f2b2-418f-b886-6f490b22f058/download
https://repositorio.uniandes.edu.co/bitstreams/973f7fef-f381-4bc0-8392-fd97eac90928/download
https://repositorio.uniandes.edu.co/bitstreams/73337483-d445-4c9b-a9c3-9bd90cb8a672/download
https://repositorio.uniandes.edu.co/bitstreams/42e7efb5-f4c4-4f82-b83a-f1cf97f34458/download
bitstream.checksum.fl_str_mv fd50bebfac07060be318f22fe17757b5
d43ce6b13d96427a09a62e9de313135e
0175ea4a2d4caec4bbcc37e300941108
ae9e573a68e7f92501b6913cc846c39f
d5badb0894502984bc1a399cd7464791
9b1e467d5d785cf323a2f945dac35382
1f99832d75fc75bc2e0a7b231e316efc
b1f5969a690cc4c7538fa8e21a2a278d
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio institucional Séneca
repository.mail.fl_str_mv adminrepositorio@uniandes.edu.co
_version_ 1831927739497578496
spelling Takahashi Rodríguez, Silviavirtual::22335-1Fonseca García, Alan SnadeTakahashi Rodríguez, Silvia2025-01-21T19:56:22Z2025-01-21T19:56:22Z2024-12-08https://hdl.handle.net/1992/75541instname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/La tesis RL Pong evalúa tres algoritmos de aprendizaje por refuerzo (PPO, DQN y A2C) en el entorno del juego Pong para determinar su desempeño en términos de estabilidad, recompensa acumulada y velocidad de convergencia. PPO demostró ser el más eficaz, alcanzando altas recompensas y estabilidad, mientras que DQN presentó limitaciones significativas debido a su incapacidad para capturar relaciones temporales complejas. A2C mostró un desempeño inicial prometedor, aunque con resultados inferiores, requiriendo ajustes adicionales. La tesis resalta el potencial de PPO para tareas de alta dimensionalidad y propone optimizar los modelos mediante extensiones de entrenamiento, ajuste de hiperparámetros y exploración de algoritmos más avanzados como SAC y TD3.Pregrado20 páginasapplication/pdfspaUniversidad de los AndesIngeniería de Sistemas y ComputaciónFacultad de IngenieríaDepartamento de Ingeniería Sistemas y ComputaciónAttribution 4.0 Internationalhttp://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2RL PongTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_7a1fTexthttp://purl.org/redcol/resource_type/TPAprendizaje por refuerzo (Reinforcement Learning)PongInteligencia artificialRedes neuronales convolucionales (CNN)Optimización de políticasEvaluación de modelosHiperparámetrosComparación de algoritmosProximal Policy Optimization (PPO)Deep Q-Network (DQN)Advantage Actor-Critic (A2C)IngenieríaGoodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. Disponible en: https://www.deeplearningbook.org.Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., ... & Hassabis, D. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529–533. https://doi.org/10.1038/nature14236.Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal Policy Optimization Algorithms. arXiv preprint arXiv:1707.06347.Mnih, V., Badia, A. P., Mirza, M., Graves, A., Harley, T., Lillicrap, T., ... & Kavukcuoglu, K. (2016). Asynchronous methods for deep reinforcement learning. Proceedings of the 33rd International Conference on Machine Learning (ICML). https://arxiv.org/abs/1602.01783.Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. Disponible en: http://incompleteideas.net/book/the-book-2nd.htmlRaffin, A., Hill, A., Gleave, A., Kanervisto, A., Ernestus, M., & Dormann, N. (2021). Stable-Baselines3: Reliable Reinforcement Learning Implementations. Journal of Machine Learning Research (JMLR). Disponible en: https://github.com/DLR-RM/stable-baselines3OpenAI. (2024). Implementación propuesta del modelo Advantage Actor-Critic (A2C) para el entorno Pong en Stable-Baselines3. Texto generado por el modelo ChatGPT. Recuperado de https://chat.openai.com/.202111432Publicationhttps://scholar.google.es/citations?user=x7gjZ04AAAAJvirtual::22335-10000-0001-7971-8979virtual::22335-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000143898virtual::22335-17ab9a4e1-60f0-4e06-936b-39f2bf93d8a0virtual::22335-17ab9a4e1-60f0-4e06-936b-39f2bf93d8a0virtual::22335-1ORIGINALautorizacion tesis Alan.pdfautorizacion tesis Alan.pdfHIDEapplication/pdf258822https://repositorio.uniandes.edu.co/bitstreams/d0d9da49-b47c-423f-9718-0a6e02f08a39/downloadfd50bebfac07060be318f22fe17757b5MD51RL Pong.pdfRL Pong.pdfapplication/pdf856197https://repositorio.uniandes.edu.co/bitstreams/3215c96d-947c-4603-aec6-3ae325170dae/downloadd43ce6b13d96427a09a62e9de313135eMD52CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8908https://repositorio.uniandes.edu.co/bitstreams/5af6d0af-4008-454f-a6dd-7816e48dbc64/download0175ea4a2d4caec4bbcc37e300941108MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-82535https://repositorio.uniandes.edu.co/bitstreams/f87101e1-fdb7-48aa-8079-b3cbe3bb2e4a/downloadae9e573a68e7f92501b6913cc846c39fMD54TEXTautorizacion tesis Alan.pdf.txtautorizacion tesis Alan.pdf.txtExtracted texttext/plain1345https://repositorio.uniandes.edu.co/bitstreams/6cc82f05-f2b2-418f-b886-6f490b22f058/downloadd5badb0894502984bc1a399cd7464791MD55RL Pong.pdf.txtRL Pong.pdf.txtExtracted texttext/plain28314https://repositorio.uniandes.edu.co/bitstreams/973f7fef-f381-4bc0-8392-fd97eac90928/download9b1e467d5d785cf323a2f945dac35382MD57THUMBNAILautorizacion tesis Alan.pdf.jpgautorizacion tesis Alan.pdf.jpgGenerated Thumbnailimage/jpeg10544https://repositorio.uniandes.edu.co/bitstreams/73337483-d445-4c9b-a9c3-9bd90cb8a672/download1f99832d75fc75bc2e0a7b231e316efcMD56RL Pong.pdf.jpgRL Pong.pdf.jpgGenerated Thumbnailimage/jpeg4589https://repositorio.uniandes.edu.co/bitstreams/42e7efb5-f4c4-4f82-b83a-f1cf97f34458/downloadb1f5969a690cc4c7538fa8e21a2a278dMD581992/75541oai:repositorio.uniandes.edu.co:1992/755412025-03-05 10:02:27.606http://creativecommons.org/licenses/by/4.0/Attribution 4.0 Internationalopen.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.coPGgzPjxzdHJvbmc+RGVzY2FyZ28gZGUgUmVzcG9uc2FiaWxpZGFkIC0gTGljZW5jaWEgZGUgQXV0b3JpemFjacOzbjwvc3Ryb25nPjwvaDM+CjxwPjxzdHJvbmc+UG9yIGZhdm9yIGxlZXIgYXRlbnRhbWVudGUgZXN0ZSBkb2N1bWVudG8gcXVlIHBlcm1pdGUgYWwgUmVwb3NpdG9yaW8gSW5zdGl0dWNpb25hbCBTw6luZWNhIHJlcHJvZHVjaXIgeSBkaXN0cmlidWlyIGxvcyByZWN1cnNvcyBkZSBpbmZvcm1hY2nDs24gZGVwb3NpdGFkb3MgbWVkaWFudGUgbGEgYXV0b3JpemFjacOzbiBkZSBsb3Mgc2lndWllbnRlcyB0w6lybWlub3M6PC9zdHJvbmc+PC9wPgo8cD5Db25jZWRhIGxhIGxpY2VuY2lhIGRlIGRlcMOzc2l0byBlc3TDoW5kYXIgc2VsZWNjaW9uYW5kbyBsYSBvcGNpw7NuIDxzdHJvbmc+J0FjZXB0YXIgbG9zIHTDqXJtaW5vcyBhbnRlcmlvcm1lbnRlIGRlc2NyaXRvcyc8L3N0cm9uZz4geSBjb250aW51YXIgZWwgcHJvY2VzbyBkZSBlbnbDrW8gbWVkaWFudGUgZWwgYm90w7NuIDxzdHJvbmc+J1NpZ3VpZW50ZScuPC9zdHJvbmc+PC9wPgo8aHI+CjxwPllvLCBlbiBtaSBjYWxpZGFkIGRlIGF1dG9yIGRlbCB0cmFiYWpvIGRlIHRlc2lzLCBtb25vZ3JhZsOtYSBvIHRyYWJham8gZGUgZ3JhZG8sIGhhZ28gZW50cmVnYSBkZWwgZWplbXBsYXIgcmVzcGVjdGl2byB5IGRlIHN1cyBhbmV4b3MgZGUgc2VyIGVsIGNhc28sIGVuIGZvcm1hdG8gZGlnaXRhbCB5L28gZWxlY3Ryw7NuaWNvIHkgYXV0b3Jpem8gYSBsYSBVbml2ZXJzaWRhZCBkZSBsb3MgQW5kZXMgcGFyYSBxdWUgcmVhbGljZSBsYSBwdWJsaWNhY2nDs24gZW4gZWwgU2lzdGVtYSBkZSBCaWJsaW90ZWNhcyBvIGVuIGN1YWxxdWllciBvdHJvIHNpc3RlbWEgbyBiYXNlIGRlIGRhdG9zIHByb3BpbyBvIGFqZW5vIGEgbGEgVW5pdmVyc2lkYWQgeSBwYXJhIHF1ZSBlbiBsb3MgdMOpcm1pbm9zIGVzdGFibGVjaWRvcyBlbiBsYSBMZXkgMjMgZGUgMTk4MiwgTGV5IDQ0IGRlIDE5OTMsIERlY2lzacOzbiBBbmRpbmEgMzUxIGRlIDE5OTMsIERlY3JldG8gNDYwIGRlIDE5OTUgeSBkZW3DoXMgbm9ybWFzIGdlbmVyYWxlcyBzb2JyZSBsYSBtYXRlcmlhLCB1dGlsaWNlIGVuIHRvZGFzIHN1cyBmb3JtYXMsIGxvcyBkZXJlY2hvcyBwYXRyaW1vbmlhbGVzIGRlIHJlcHJvZHVjY2nDs24sIGNvbXVuaWNhY2nDs24gcMO6YmxpY2EsIHRyYW5zZm9ybWFjacOzbiB5IGRpc3RyaWJ1Y2nDs24gKGFscXVpbGVyLCBwcsOpc3RhbW8gcMO6YmxpY28gZSBpbXBvcnRhY2nDs24pIHF1ZSBtZSBjb3JyZXNwb25kZW4gY29tbyBjcmVhZG9yIGRlIGxhIG9icmEgb2JqZXRvIGRlbCBwcmVzZW50ZSBkb2N1bWVudG8uPC9wPgo8cD5MYSBwcmVzZW50ZSBhdXRvcml6YWNpw7NuIHNlIGVtaXRlIGVuIGNhbGlkYWQgZGUgYXV0b3IgZGUgbGEgb2JyYSBvYmpldG8gZGVsIHByZXNlbnRlIGRvY3VtZW50byB5IG5vIGNvcnJlc3BvbmRlIGEgY2VzacOzbiBkZSBkZXJlY2hvcywgc2lubyBhIGxhIGF1dG9yaXphY2nDs24gZGUgdXNvIGFjYWTDqW1pY28gZGUgY29uZm9ybWlkYWQgY29uIGxvIGFudGVyaW9ybWVudGUgc2XDsWFsYWRvLiBMYSBwcmVzZW50ZSBhdXRvcml6YWNpw7NuIHNlIGhhY2UgZXh0ZW5zaXZhIG5vIHNvbG8gYSBsYXMgZmFjdWx0YWRlcyB5IGRlcmVjaG9zIGRlIHVzbyBzb2JyZSBsYSBvYnJhIGVuIGZvcm1hdG8gbyBzb3BvcnRlIG1hdGVyaWFsLCBzaW5vIHRhbWJpw6luIHBhcmEgZm9ybWF0byBlbGVjdHLDs25pY28sIHkgZW4gZ2VuZXJhbCBwYXJhIGN1YWxxdWllciBmb3JtYXRvIGNvbm9jaWRvIG8gcG9yIGNvbm9jZXIuPC9wPgo8cD5FbCBhdXRvciwgbWFuaWZpZXN0YSBxdWUgbGEgb2JyYSBvYmpldG8gZGUgbGEgcHJlc2VudGUgYXV0b3JpemFjacOzbiBlcyBvcmlnaW5hbCB5IGxhIHJlYWxpesOzIHNpbiB2aW9sYXIgbyB1c3VycGFyIGRlcmVjaG9zIGRlIGF1dG9yIGRlIHRlcmNlcm9zLCBwb3IgbG8gdGFudG8sIGxhIG9icmEgZXMgZGUgc3UgZXhjbHVzaXZhIGF1dG9yw61hIHkgdGllbmUgbGEgdGl0dWxhcmlkYWQgc29icmUgbGEgbWlzbWEuPC9wPgo8cD5FbiBjYXNvIGRlIHByZXNlbnRhcnNlIGN1YWxxdWllciByZWNsYW1hY2nDs24gbyBhY2Npw7NuIHBvciBwYXJ0ZSBkZSB1biB0ZXJjZXJvIGVuIGN1YW50byBhIGxvcyBkZXJlY2hvcyBkZSBhdXRvciBzb2JyZSBsYSBvYnJhIGVuIGN1ZXN0acOzbiwgZWwgYXV0b3IgYXN1bWlyw6EgdG9kYSBsYSByZXNwb25zYWJpbGlkYWQsIHkgc2FsZHLDoSBkZSBkZWZlbnNhIGRlIGxvcyBkZXJlY2hvcyBhcXXDrSBhdXRvcml6YWRvcywgcGFyYSB0b2RvcyBsb3MgZWZlY3RvcyBsYSBVbml2ZXJzaWRhZCBhY3TDumEgY29tbyB1biB0ZXJjZXJvIGRlIGJ1ZW5hIGZlLjwvcD4KPHA+U2kgdGllbmUgYWxndW5hIGR1ZGEgc29icmUgbGEgbGljZW5jaWEsIHBvciBmYXZvciwgY29udGFjdGUgY29uIGVsIDxhIGhyZWY9Im1haWx0bzpiaWJsaW90ZWNhQHVuaWFuZGVzLmVkdS5jbyIgdGFyZ2V0PSJfYmxhbmsiPkFkbWluaXN0cmFkb3IgZGVsIFNpc3RlbWEuPC9hPjwvcD4K