Enfoques de Bajo Rango para Resolver MDPs y Problemas de RL

En el presente trabajo se estudian algunas consecuencias de la hipótesis de bajo rango en el contexto de MDPs y Aprendizaje por Refuerzo en general, desde trabajos recientes como los de [Zhu et al., 2021], [Agarwal et al., 2020] y [Uehara et al., 2021] hasta implementaciones de los algoritmos descri...

Full description

Autores:
Gómez Polo, Diego Andrés
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2022
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/64291
Acceso en línea:
http://hdl.handle.net/1992/64291
Palabra clave:
Reinforcement Learning
MDP
Low-Rank Hypothesis
Matemáticas
Rights
openAccess
License
Atribución 4.0 Internacional
id UNIANDES2_b08b0150c3f652caff2d157ad53eff02
oai_identifier_str oai:repositorio.uniandes.edu.co:1992/64291
network_acronym_str UNIANDES2
network_name_str Séneca: repositorio Uniandes
repository_id_str
dc.title.none.fl_str_mv Enfoques de Bajo Rango para Resolver MDPs y Problemas de RL
dc.title.alternative.none.fl_str_mv Low-Rank Approaches to MDPs and RL Problems
title Enfoques de Bajo Rango para Resolver MDPs y Problemas de RL
spellingShingle Enfoques de Bajo Rango para Resolver MDPs y Problemas de RL
Reinforcement Learning
MDP
Low-Rank Hypothesis
Matemáticas
title_short Enfoques de Bajo Rango para Resolver MDPs y Problemas de RL
title_full Enfoques de Bajo Rango para Resolver MDPs y Problemas de RL
title_fullStr Enfoques de Bajo Rango para Resolver MDPs y Problemas de RL
title_full_unstemmed Enfoques de Bajo Rango para Resolver MDPs y Problemas de RL
title_sort Enfoques de Bajo Rango para Resolver MDPs y Problemas de RL
dc.creator.fl_str_mv Gómez Polo, Diego Andrés
dc.contributor.advisor.none.fl_str_mv Junca Peláez, Mauricio José
dc.contributor.author.none.fl_str_mv Gómez Polo, Diego Andrés
dc.contributor.jury.none.fl_str_mv Riascos Villegas, Alvaro José
dc.subject.keyword.none.fl_str_mv Reinforcement Learning
MDP
Low-Rank Hypothesis
topic Reinforcement Learning
MDP
Low-Rank Hypothesis
Matemáticas
dc.subject.themes.es_CO.fl_str_mv Matemáticas
description En el presente trabajo se estudian algunas consecuencias de la hipótesis de bajo rango en el contexto de MDPs y Aprendizaje por Refuerzo en general, desde trabajos recientes como los de [Zhu et al., 2021], [Agarwal et al., 2020] y [Uehara et al., 2021] hasta implementaciones de los algoritmos descritos en dichos papers con algunas modificaciones propuestas. Se hablará también de las complejidades teóricas de dichos algoritmos, sus supuestos y limitaciones prácticas, y de los resultados experimentales obtenidos en cada implementación.
publishDate 2022
dc.date.issued.none.fl_str_mv 2022-12-14
dc.date.accessioned.none.fl_str_mv 2023-01-27T18:36:27Z
dc.date.available.none.fl_str_mv 2023-01-27T18:36:27Z
dc.type.es_CO.fl_str_mv Trabajo de grado - Pregrado
dc.type.driver.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.version.none.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.content.es_CO.fl_str_mv Text
dc.type.redcol.none.fl_str_mv http://purl.org/redcol/resource_type/TP
format http://purl.org/coar/resource_type/c_7a1f
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/1992/64291
dc.identifier.instname.es_CO.fl_str_mv instname:Universidad de los Andes
dc.identifier.reponame.es_CO.fl_str_mv reponame:Repositorio Institucional Séneca
dc.identifier.repourl.es_CO.fl_str_mv repourl:https://repositorio.uniandes.edu.co/
url http://hdl.handle.net/1992/64291
identifier_str_mv instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
repourl:https://repositorio.uniandes.edu.co/
dc.language.iso.es_CO.fl_str_mv spa
language spa
dc.rights.license.spa.fl_str_mv Atribución 4.0 Internacional
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv Atribución 4.0 Internacional
http://creativecommons.org/licenses/by/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.es_CO.fl_str_mv 43 páginas
dc.format.mimetype.es_CO.fl_str_mv application/pdf
dc.publisher.es_CO.fl_str_mv Universidad de los Andes
dc.publisher.program.es_CO.fl_str_mv Matemáticas
dc.publisher.faculty.es_CO.fl_str_mv Facultad de Ciencias
dc.publisher.department.es_CO.fl_str_mv Departamento de Matemáticas
institution Universidad de los Andes
bitstream.url.fl_str_mv https://repositorio.uniandes.edu.co/bitstreams/855e07cb-4ceb-43f0-b596-1bc3811e59f4/download
https://repositorio.uniandes.edu.co/bitstreams/0fd880f5-66e0-46f3-9fdd-d3744a20e340/download
https://repositorio.uniandes.edu.co/bitstreams/ccf23de4-9171-4e97-a76b-a90b54c6332c/download
https://repositorio.uniandes.edu.co/bitstreams/5d166342-f104-4e46-b564-f5eb91ea79e5/download
https://repositorio.uniandes.edu.co/bitstreams/a9ef1b49-f18a-49a6-a591-9d13ca80f21f/download
https://repositorio.uniandes.edu.co/bitstreams/0a57416b-bacd-4dee-b308-5e7315b35f03/download
https://repositorio.uniandes.edu.co/bitstreams/45063216-b011-48b2-b91d-57a38249e27e/download
https://repositorio.uniandes.edu.co/bitstreams/6107b448-7823-44f5-bed7-2d5b2999ce84/download
bitstream.checksum.fl_str_mv 0ccb50f105b52d6dedc03d981555c381
4491fe1afb58beaaef41a73cf7ff2e27
5aa5c691a1ffe97abd12c2966efcb8d6
2a7671940cf5afa69c5e92aae94c3f7f
924905d732c2e8a73facc2eedc6c63a7
0175ea4a2d4caec4bbcc37e300941108
41eb68d283b769d7702c9c0928d979d4
1bf69ba85cfe02eca3e803b24212472f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio institucional Séneca
repository.mail.fl_str_mv adminrepositorio@uniandes.edu.co
_version_ 1812133901520338944
spelling Atribución 4.0 Internacionalhttp://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Junca Peláez, Mauricio Josévirtual::6587-1Gómez Polo, Diego Andrés76be8ed1-ff56-4d7e-b63b-6740af8fab99600Riascos Villegas, Alvaro José2023-01-27T18:36:27Z2023-01-27T18:36:27Z2022-12-14http://hdl.handle.net/1992/64291instname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/En el presente trabajo se estudian algunas consecuencias de la hipótesis de bajo rango en el contexto de MDPs y Aprendizaje por Refuerzo en general, desde trabajos recientes como los de [Zhu et al., 2021], [Agarwal et al., 2020] y [Uehara et al., 2021] hasta implementaciones de los algoritmos descritos en dichos papers con algunas modificaciones propuestas. Se hablará también de las complejidades teóricas de dichos algoritmos, sus supuestos y limitaciones prácticas, y de los resultados experimentales obtenidos en cada implementación.MatemáticoPregradoAprendizaje por Refuerzo. Reinforcement Learning43 páginasapplication/pdfspaUniversidad de los AndesMatemáticasFacultad de CienciasDepartamento de MatemáticasEnfoques de Bajo Rango para Resolver MDPs y Problemas de RLLow-Rank Approaches to MDPs and RL ProblemsTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_7a1fTexthttp://purl.org/redcol/resource_type/TPReinforcement LearningMDPLow-Rank HypothesisMatemáticas201713198Publicationhttps://scholar.google.es/citations?user=CoIlxH0AAAAJvirtual::6587-10000-0002-5541-0758virtual::6587-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000155861virtual::6587-11e5c3dc6-4d9c-406b-9f99-5c91523b7e49virtual::6587-11e5c3dc6-4d9c-406b-9f99-5c91523b7e49virtual::6587-1TEXTTesis Version Final da.gomezp.pdf.txtTesis Version Final da.gomezp.pdf.txtExtracted texttext/plain92332https://repositorio.uniandes.edu.co/bitstreams/855e07cb-4ceb-43f0-b596-1bc3811e59f4/download0ccb50f105b52d6dedc03d981555c381MD55Solicitud Aprobación Documento de Tesis.pdf.txtSolicitud Aprobación Documento de Tesis.pdf.txtExtracted texttext/plain1163https://repositorio.uniandes.edu.co/bitstreams/0fd880f5-66e0-46f3-9fdd-d3744a20e340/download4491fe1afb58beaaef41a73cf7ff2e27MD57LICENSElicense.txtlicense.txttext/plain; charset=utf-81810https://repositorio.uniandes.edu.co/bitstreams/ccf23de4-9171-4e97-a76b-a90b54c6332c/download5aa5c691a1ffe97abd12c2966efcb8d6MD51THUMBNAILTesis Version Final da.gomezp.pdf.jpgTesis Version Final da.gomezp.pdf.jpgIM Thumbnailimage/jpeg6633https://repositorio.uniandes.edu.co/bitstreams/5d166342-f104-4e46-b564-f5eb91ea79e5/download2a7671940cf5afa69c5e92aae94c3f7fMD56Solicitud Aprobación Documento de Tesis.pdf.jpgSolicitud Aprobación Documento de Tesis.pdf.jpgIM Thumbnailimage/jpeg16102https://repositorio.uniandes.edu.co/bitstreams/a9ef1b49-f18a-49a6-a591-9d13ca80f21f/download924905d732c2e8a73facc2eedc6c63a7MD58CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8908https://repositorio.uniandes.edu.co/bitstreams/0a57416b-bacd-4dee-b308-5e7315b35f03/download0175ea4a2d4caec4bbcc37e300941108MD52ORIGINALTesis Version Final da.gomezp.pdfTesis Version Final da.gomezp.pdfDocumento Final Tesis de Pregrado Matemáticasapplication/pdf842525https://repositorio.uniandes.edu.co/bitstreams/45063216-b011-48b2-b91d-57a38249e27e/download41eb68d283b769d7702c9c0928d979d4MD53Solicitud Aprobación Documento de Tesis.pdfSolicitud Aprobación Documento de Tesis.pdfHIDEapplication/pdf231918https://repositorio.uniandes.edu.co/bitstreams/6107b448-7823-44f5-bed7-2d5b2999ce84/download1bf69ba85cfe02eca3e803b24212472fMD541992/64291oai:repositorio.uniandes.edu.co:1992/642912024-03-13 13:13:24.573http://creativecommons.org/licenses/by/4.0/open.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.coWW8sIGVuIG1pIGNhbGlkYWQgZGUgYXV0b3IgZGVsIHRyYWJham8gZGUgdGVzaXMsIG1vbm9ncmFmw61hIG8gdHJhYmFqbyBkZSBncmFkbywgaGFnbyBlbnRyZWdhIGRlbCBlamVtcGxhciByZXNwZWN0aXZvIHkgZGUgc3VzIGFuZXhvcyBkZSBzZXIgZWwgY2FzbywgZW4gZm9ybWF0byBkaWdpdGFsIHkvbyBlbGVjdHLDs25pY28geSBhdXRvcml6byBhIGxhIFVuaXZlcnNpZGFkIGRlIGxvcyBBbmRlcyBwYXJhIHF1ZSByZWFsaWNlIGxhIHB1YmxpY2FjacOzbiBlbiBlbCBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIG8gZW4gY3VhbHF1aWVyIG90cm8gc2lzdGVtYSBvIGJhc2UgZGUgZGF0b3MgcHJvcGlvIG8gYWplbm8gYSBsYSBVbml2ZXJzaWRhZCB5IHBhcmEgcXVlIGVuIGxvcyB0w6lybWlub3MgZXN0YWJsZWNpZG9zIGVuIGxhIExleSAyMyBkZSAxOTgyLCBMZXkgNDQgZGUgMTk5MywgRGVjaXNpw7NuIEFuZGluYSAzNTEgZGUgMTk5MywgRGVjcmV0byA0NjAgZGUgMTk5NSB5IGRlbcOhcyBub3JtYXMgZ2VuZXJhbGVzIHNvYnJlIGxhIG1hdGVyaWEsIHV0aWxpY2UgZW4gdG9kYXMgc3VzIGZvcm1hcywgbG9zIGRlcmVjaG9zIHBhdHJpbW9uaWFsZXMgZGUgcmVwcm9kdWNjacOzbiwgY29tdW5pY2FjacOzbiBww7pibGljYSwgdHJhbnNmb3JtYWNpw7NuIHkgZGlzdHJpYnVjacOzbiAoYWxxdWlsZXIsIHByw6lzdGFtbyBww7pibGljbyBlIGltcG9ydGFjacOzbikgcXVlIG1lIGNvcnJlc3BvbmRlbiBjb21vIGNyZWFkb3IgZGUgbGEgb2JyYSBvYmpldG8gZGVsIHByZXNlbnRlIGRvY3VtZW50by4gIAoKCkxhIHByZXNlbnRlIGF1dG9yaXphY2nDs24gc2UgZW1pdGUgZW4gY2FsaWRhZCBkZSBhdXRvciBkZSBsYSBvYnJhIG9iamV0byBkZWwgcHJlc2VudGUgZG9jdW1lbnRvIHkgbm8gY29ycmVzcG9uZGUgYSBjZXNpw7NuIGRlIGRlcmVjaG9zLCBzaW5vIGEgbGEgYXV0b3JpemFjacOzbiBkZSB1c28gYWNhZMOpbWljbyBkZSBjb25mb3JtaWRhZCBjb24gbG8gYW50ZXJpb3JtZW50ZSBzZcOxYWxhZG8uIExhIHByZXNlbnRlIGF1dG9yaXphY2nDs24gc2UgaGFjZSBleHRlbnNpdmEgbm8gc29sbyBhIGxhcyBmYWN1bHRhZGVzIHkgZGVyZWNob3MgZGUgdXNvIHNvYnJlIGxhIG9icmEgZW4gZm9ybWF0byBvIHNvcG9ydGUgbWF0ZXJpYWwsIHNpbm8gdGFtYmnDqW4gcGFyYSBmb3JtYXRvIGVsZWN0csOzbmljbywgeSBlbiBnZW5lcmFsIHBhcmEgY3VhbHF1aWVyIGZvcm1hdG8gY29ub2NpZG8gbyBwb3IgY29ub2Nlci4gCgoKRWwgYXV0b3IsIG1hbmlmaWVzdGEgcXVlIGxhIG9icmEgb2JqZXRvIGRlIGxhIHByZXNlbnRlIGF1dG9yaXphY2nDs24gZXMgb3JpZ2luYWwgeSBsYSByZWFsaXrDsyBzaW4gdmlvbGFyIG8gdXN1cnBhciBkZXJlY2hvcyBkZSBhdXRvciBkZSB0ZXJjZXJvcywgcG9yIGxvIHRhbnRvLCBsYSBvYnJhIGVzIGRlIHN1IGV4Y2x1c2l2YSBhdXRvcsOtYSB5IHRpZW5lIGxhIHRpdHVsYXJpZGFkIHNvYnJlIGxhIG1pc21hLiAKCgpFbiBjYXNvIGRlIHByZXNlbnRhcnNlIGN1YWxxdWllciByZWNsYW1hY2nDs24gbyBhY2Npw7NuIHBvciBwYXJ0ZSBkZSB1biB0ZXJjZXJvIGVuIGN1YW50byBhIGxvcyBkZXJlY2hvcyBkZSBhdXRvciBzb2JyZSBsYSBvYnJhIGVuIGN1ZXN0acOzbiwgZWwgYXV0b3IgYXN1bWlyw6EgdG9kYSBsYSByZXNwb25zYWJpbGlkYWQsIHkgc2FsZHLDoSBkZSBkZWZlbnNhIGRlIGxvcyBkZXJlY2hvcyBhcXXDrSBhdXRvcml6YWRvcywgcGFyYSB0b2RvcyBsb3MgZWZlY3RvcyBsYSBVbml2ZXJzaWRhZCBhY3TDumEgY29tbyB1biB0ZXJjZXJvIGRlIGJ1ZW5hIGZlLiAKCg==