Evaluación de políticas bajo ruido Markoviano mediante el algoritmo de Online Bootstrap Inference

Este trabajo estudia la evaluación de políticas en Aprendizaje Reforzado (RL) en escenarios de dimensión grande o con incertidumbre. En este caso, el valor de la política que se quiere evaluar se aproxima de manera lineal, y se desarrolla usando Aproximación Lineal Estocástica (LSA) con ruido Markov...

Full description

Autores:
Patrón Piñerez, Ana María
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2023
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/68318
Acceso en línea:
http://hdl.handle.net/1992/68318
Palabra clave:
Aprendizaje Reforzado
Aproximación Lineal Estocástica
Diferencias Temporales
Evaluación de políticas
Ruido Markoviano
Matemáticas
Rights
openAccess
License
Attribution-NoDerivatives 4.0 Internacional
id UNIANDES2_a70e560de79a852436e36ed0a4130925
oai_identifier_str oai:repositorio.uniandes.edu.co:1992/68318
network_acronym_str UNIANDES2
network_name_str Séneca: repositorio Uniandes
repository_id_str
dc.title.none.fl_str_mv Evaluación de políticas bajo ruido Markoviano mediante el algoritmo de Online Bootstrap Inference
title Evaluación de políticas bajo ruido Markoviano mediante el algoritmo de Online Bootstrap Inference
spellingShingle Evaluación de políticas bajo ruido Markoviano mediante el algoritmo de Online Bootstrap Inference
Aprendizaje Reforzado
Aproximación Lineal Estocástica
Diferencias Temporales
Evaluación de políticas
Ruido Markoviano
Matemáticas
title_short Evaluación de políticas bajo ruido Markoviano mediante el algoritmo de Online Bootstrap Inference
title_full Evaluación de políticas bajo ruido Markoviano mediante el algoritmo de Online Bootstrap Inference
title_fullStr Evaluación de políticas bajo ruido Markoviano mediante el algoritmo de Online Bootstrap Inference
title_full_unstemmed Evaluación de políticas bajo ruido Markoviano mediante el algoritmo de Online Bootstrap Inference
title_sort Evaluación de políticas bajo ruido Markoviano mediante el algoritmo de Online Bootstrap Inference
dc.creator.fl_str_mv Patrón Piñerez, Ana María
dc.contributor.advisor.none.fl_str_mv Junca Peláez, Mauricio José
dc.contributor.author.none.fl_str_mv Patrón Piñerez, Ana María
dc.contributor.jury.none.fl_str_mv Quiroz Salazar, Adolfo José
dc.subject.keyword.none.fl_str_mv Aprendizaje Reforzado
Aproximación Lineal Estocástica
Diferencias Temporales
Evaluación de políticas
Ruido Markoviano
topic Aprendizaje Reforzado
Aproximación Lineal Estocástica
Diferencias Temporales
Evaluación de políticas
Ruido Markoviano
Matemáticas
dc.subject.themes.es_CO.fl_str_mv Matemáticas
description Este trabajo estudia la evaluación de políticas en Aprendizaje Reforzado (RL) en escenarios de dimensión grande o con incertidumbre. En este caso, el valor de la política que se quiere evaluar se aproxima de manera lineal, y se desarrolla usando Aproximación Lineal Estocástica (LSA) con ruido Markoviano. Los métodos clásicos, Diferencias Temporales y Gradientes de Diferencias Temporales, son ineficientes al estimar la función valor. Por eso, se estudia la alternativa que ofrece el algoritmo de Online Bootstrap Inference, el cual promete ser una mejora a los métodos existentes.
publishDate 2023
dc.date.accessioned.none.fl_str_mv 2023-07-11T17:00:25Z
dc.date.available.none.fl_str_mv 2023-07-11T17:00:25Z
dc.date.issued.none.fl_str_mv 2023-06-06
dc.type.es_CO.fl_str_mv Trabajo de grado - Pregrado
dc.type.driver.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.version.none.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.content.es_CO.fl_str_mv Text
dc.type.redcol.none.fl_str_mv http://purl.org/redcol/resource_type/TP
format http://purl.org/coar/resource_type/c_7a1f
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/1992/68318
dc.identifier.instname.es_CO.fl_str_mv instname:Universidad de los Andes
dc.identifier.reponame.es_CO.fl_str_mv reponame:Repositorio Institucional Séneca
dc.identifier.repourl.es_CO.fl_str_mv repourl:https://repositorio.uniandes.edu.co/
url http://hdl.handle.net/1992/68318
identifier_str_mv instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
repourl:https://repositorio.uniandes.edu.co/
dc.language.iso.es_CO.fl_str_mv spa
language spa
dc.relation.references.es_CO.fl_str_mv Arfé, A. (2017). Stochastic approximation and martingale methods. Notas de clase.
Bach, F., Liu, Y., and Li, R. (2016). Statistical machine learning and convex optimization. Département d'Informatique de l'ENS (DI ENS).
Bercu, B. (2019a). Asymptotic behavior of stochastic algorithms with statistical applications. part i. University of Bordeaux. ETICS Annual Research School,Fréjus.
Bercu, B. (2019b). Asymptotic behavior of stochastic algorithms with statistical applications. part ii. University of Bordeaux. ETICS Annual Research School,Fréjus.
Borkar, V. S. (2006). Stochastic approximation with controlled markov noise. Systems and Control Letters, 55(2):pp.139-145.
Borkar, V. S. (2008). Stochastic approximation: A dynamical systems viewpoint. Cambridge University Press.Second Edition
Haskell, W. B. (2018). Introduction to dynamic programming. National University of Singapore. ISE 6509: Theory and Algorithms for Dynamic Programming.
Karmakar, P. (2020). Stochastic approximation with markov noise: Analysis and applications in reinforcement learning. CoRR, abs/2012.00805.
Kushner, H. and Yin, G. (2003). Stochastic approximation and recursive algorithms and applications. Springer New York.
Levin, D., Peres, Y., andWilmer, E. L. (2017). Markov chains and mixing times. American Mathematical Society
Liang, F. (2010). Trajectory averaging for stochastic approximation mcmc algorithms. The Annals of Statistics.Vol. 38, No. 5 (October 2010), pp. 2823- 2856.
Maei, H. R. (2011). Gradient temporal-difference learning algorithms. University of Alberta. Department of Computing Science.
NIHMS (2023). Sepsis. U.S. Department of Health and Human Services, National Institutes of Health
Oberst, M. and Sontag, D. (2019). Counterfactual offpolicy evaluation with gumbel-max structural causal models. Proceedings of the 36th International Conference on Machine Learning, pp. 4881-4890.
Ramprasad, P., Li, Y., Yang, Z., Wang, Z., Sun, W., and Cheng, G. (2022). Online bootrstrap inference for policy evaluation in reinforcement learning. Journal of the American Statistical Association, pp. 1-14.
Robbins, H. and Monroe, S. (1951). A stochastic approximation method. The Annals of Mathematical Statistics. 22(3): pp. 400-407.
Sutton, R. and Barto, A. (2018). Reinforcement learning: An introduction. The MIT Press.
Xu, T., Wang, Z., Zhou, Y., and Liang, Y. (2020). Reanalysis of variance reduced temporal difference learning. International Conference on Learning Representations. CoRR, abs/2001.01898
dc.rights.license.spa.fl_str_mv Attribution-NoDerivatives 4.0 Internacional
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nd/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv Attribution-NoDerivatives 4.0 Internacional
http://creativecommons.org/licenses/by-nd/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.es_CO.fl_str_mv 62 páginas
dc.format.mimetype.es_CO.fl_str_mv application/pdf
dc.publisher.es_CO.fl_str_mv Universidad de los Andes
dc.publisher.program.es_CO.fl_str_mv Matemáticas
dc.publisher.faculty.es_CO.fl_str_mv Facultad de Ciencias
dc.publisher.department.es_CO.fl_str_mv Departamento de Matemáticas
institution Universidad de los Andes
bitstream.url.fl_str_mv https://repositorio.uniandes.edu.co/bitstreams/e3cafe33-4ec9-411f-8cfb-01f888410624/download
https://repositorio.uniandes.edu.co/bitstreams/7eb21cda-9359-48df-9f5e-bfd542bce5f3/download
https://repositorio.uniandes.edu.co/bitstreams/9f5615c4-2d2f-4f57-ad02-d353f0b97c1f/download
https://repositorio.uniandes.edu.co/bitstreams/29503037-90f3-4550-8172-417fca720910/download
https://repositorio.uniandes.edu.co/bitstreams/64672059-98c8-4830-86d4-e85ba72607c1/download
https://repositorio.uniandes.edu.co/bitstreams/5eb98e4f-033d-4c2b-889a-95583473b2a7/download
https://repositorio.uniandes.edu.co/bitstreams/09d262ca-54f5-4f33-af55-97e12067d90f/download
https://repositorio.uniandes.edu.co/bitstreams/9bde6071-3d8c-4d15-b766-e24803ee8a21/download
bitstream.checksum.fl_str_mv d0ddcb3f1367217e40c8bda414dd037e
08b106dfeb12472e88207a069e15ba30
fa0e4debc8ae741dc7e99eb5a11d87c4
81d27586afea73b43114262ac8e27a5f
f7d494f61e544413a13e6ba1da2089cd
e711f2447eee6af17652993377184a9c
b07df2b8d3d4aa7e51cb3a2de8a1b20d
5aa5c691a1ffe97abd12c2966efcb8d6
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio institucional Séneca
repository.mail.fl_str_mv adminrepositorio@uniandes.edu.co
_version_ 1818112064656244736
spelling Attribution-NoDerivatives 4.0 Internacionalhttp://creativecommons.org/licenses/by-nd/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Junca Peláez, Mauricio Josévirtual::17006-1Patrón Piñerez, Ana María7bd83ef7-4703-4dcc-8c87-24afe4d42e08600Quiroz Salazar, Adolfo José2023-07-11T17:00:25Z2023-07-11T17:00:25Z2023-06-06http://hdl.handle.net/1992/68318instname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/Este trabajo estudia la evaluación de políticas en Aprendizaje Reforzado (RL) en escenarios de dimensión grande o con incertidumbre. En este caso, el valor de la política que se quiere evaluar se aproxima de manera lineal, y se desarrolla usando Aproximación Lineal Estocástica (LSA) con ruido Markoviano. Los métodos clásicos, Diferencias Temporales y Gradientes de Diferencias Temporales, son ineficientes al estimar la función valor. Por eso, se estudia la alternativa que ofrece el algoritmo de Online Bootstrap Inference, el cual promete ser una mejora a los métodos existentes.MatemáticoPregrado62 páginasapplication/pdfspaUniversidad de los AndesMatemáticasFacultad de CienciasDepartamento de MatemáticasEvaluación de políticas bajo ruido Markoviano mediante el algoritmo de Online Bootstrap InferenceTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_7a1fTexthttp://purl.org/redcol/resource_type/TPAprendizaje ReforzadoAproximación Lineal EstocásticaDiferencias TemporalesEvaluación de políticasRuido MarkovianoMatemáticasArfé, A. (2017). Stochastic approximation and martingale methods. Notas de clase.Bach, F., Liu, Y., and Li, R. (2016). Statistical machine learning and convex optimization. Département d'Informatique de l'ENS (DI ENS).Bercu, B. (2019a). Asymptotic behavior of stochastic algorithms with statistical applications. part i. University of Bordeaux. ETICS Annual Research School,Fréjus.Bercu, B. (2019b). Asymptotic behavior of stochastic algorithms with statistical applications. part ii. University of Bordeaux. ETICS Annual Research School,Fréjus.Borkar, V. S. (2006). Stochastic approximation with controlled markov noise. Systems and Control Letters, 55(2):pp.139-145.Borkar, V. S. (2008). Stochastic approximation: A dynamical systems viewpoint. Cambridge University Press.Second EditionHaskell, W. B. (2018). Introduction to dynamic programming. National University of Singapore. ISE 6509: Theory and Algorithms for Dynamic Programming.Karmakar, P. (2020). Stochastic approximation with markov noise: Analysis and applications in reinforcement learning. CoRR, abs/2012.00805.Kushner, H. and Yin, G. (2003). Stochastic approximation and recursive algorithms and applications. Springer New York.Levin, D., Peres, Y., andWilmer, E. L. (2017). Markov chains and mixing times. American Mathematical SocietyLiang, F. (2010). Trajectory averaging for stochastic approximation mcmc algorithms. The Annals of Statistics.Vol. 38, No. 5 (October 2010), pp. 2823- 2856.Maei, H. R. (2011). Gradient temporal-difference learning algorithms. University of Alberta. Department of Computing Science.NIHMS (2023). Sepsis. U.S. Department of Health and Human Services, National Institutes of HealthOberst, M. and Sontag, D. (2019). Counterfactual offpolicy evaluation with gumbel-max structural causal models. Proceedings of the 36th International Conference on Machine Learning, pp. 4881-4890.Ramprasad, P., Li, Y., Yang, Z., Wang, Z., Sun, W., and Cheng, G. (2022). Online bootrstrap inference for policy evaluation in reinforcement learning. Journal of the American Statistical Association, pp. 1-14.Robbins, H. and Monroe, S. (1951). A stochastic approximation method. The Annals of Mathematical Statistics. 22(3): pp. 400-407.Sutton, R. and Barto, A. (2018). Reinforcement learning: An introduction. The MIT Press.Xu, T., Wang, Z., Zhou, Y., and Liang, Y. (2020). Reanalysis of variance reduced temporal difference learning. International Conference on Learning Representations. CoRR, abs/2001.01898201714291Publicationhttps://scholar.google.es/citations?user=CoIlxH0AAAAJvirtual::17006-10000-0002-5541-0758virtual::17006-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000155861virtual::17006-11e5c3dc6-4d9c-406b-9f99-5c91523b7e49virtual::17006-11e5c3dc6-4d9c-406b-9f99-5c91523b7e49virtual::17006-1TEXTTesis_PE_ruido_markoviano_Patron_Pinerez.pdf.txtTesis_PE_ruido_markoviano_Patron_Pinerez.pdf.txtExtracted texttext/plain74125https://repositorio.uniandes.edu.co/bitstreams/e3cafe33-4ec9-411f-8cfb-01f888410624/downloadd0ddcb3f1367217e40c8bda414dd037eMD55autorizacion tesis.pdf.txtautorizacion tesis.pdf.txtExtracted texttext/plain1161https://repositorio.uniandes.edu.co/bitstreams/7eb21cda-9359-48df-9f5e-bfd542bce5f3/download08b106dfeb12472e88207a069e15ba30MD57ORIGINALTesis_PE_ruido_markoviano_Patron_Pinerez.pdfTesis_PE_ruido_markoviano_Patron_Pinerez.pdfTrabajo de gradoapplication/pdf1625594https://repositorio.uniandes.edu.co/bitstreams/9f5615c4-2d2f-4f57-ad02-d353f0b97c1f/downloadfa0e4debc8ae741dc7e99eb5a11d87c4MD53autorizacion tesis.pdfautorizacion tesis.pdfHIDEapplication/pdf270637https://repositorio.uniandes.edu.co/bitstreams/29503037-90f3-4550-8172-417fca720910/download81d27586afea73b43114262ac8e27a5fMD54CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8799https://repositorio.uniandes.edu.co/bitstreams/64672059-98c8-4830-86d4-e85ba72607c1/downloadf7d494f61e544413a13e6ba1da2089cdMD52THUMBNAILTesis_PE_ruido_markoviano_Patron_Pinerez.pdf.jpgTesis_PE_ruido_markoviano_Patron_Pinerez.pdf.jpgIM Thumbnailimage/jpeg8017https://repositorio.uniandes.edu.co/bitstreams/5eb98e4f-033d-4c2b-889a-95583473b2a7/downloade711f2447eee6af17652993377184a9cMD56autorizacion tesis.pdf.jpgautorizacion tesis.pdf.jpgIM Thumbnailimage/jpeg16069https://repositorio.uniandes.edu.co/bitstreams/09d262ca-54f5-4f33-af55-97e12067d90f/downloadb07df2b8d3d4aa7e51cb3a2de8a1b20dMD58LICENSElicense.txtlicense.txttext/plain; charset=utf-81810https://repositorio.uniandes.edu.co/bitstreams/9bde6071-3d8c-4d15-b766-e24803ee8a21/download5aa5c691a1ffe97abd12c2966efcb8d6MD511992/68318oai:repositorio.uniandes.edu.co:1992/683182024-03-13 15:53:36.863http://creativecommons.org/licenses/by-nd/4.0/open.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.coWW8sIGVuIG1pIGNhbGlkYWQgZGUgYXV0b3IgZGVsIHRyYWJham8gZGUgdGVzaXMsIG1vbm9ncmFmw61hIG8gdHJhYmFqbyBkZSBncmFkbywgaGFnbyBlbnRyZWdhIGRlbCBlamVtcGxhciByZXNwZWN0aXZvIHkgZGUgc3VzIGFuZXhvcyBkZSBzZXIgZWwgY2FzbywgZW4gZm9ybWF0byBkaWdpdGFsIHkvbyBlbGVjdHLDs25pY28geSBhdXRvcml6byBhIGxhIFVuaXZlcnNpZGFkIGRlIGxvcyBBbmRlcyBwYXJhIHF1ZSByZWFsaWNlIGxhIHB1YmxpY2FjacOzbiBlbiBlbCBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIG8gZW4gY3VhbHF1aWVyIG90cm8gc2lzdGVtYSBvIGJhc2UgZGUgZGF0b3MgcHJvcGlvIG8gYWplbm8gYSBsYSBVbml2ZXJzaWRhZCB5IHBhcmEgcXVlIGVuIGxvcyB0w6lybWlub3MgZXN0YWJsZWNpZG9zIGVuIGxhIExleSAyMyBkZSAxOTgyLCBMZXkgNDQgZGUgMTk5MywgRGVjaXNpw7NuIEFuZGluYSAzNTEgZGUgMTk5MywgRGVjcmV0byA0NjAgZGUgMTk5NSB5IGRlbcOhcyBub3JtYXMgZ2VuZXJhbGVzIHNvYnJlIGxhIG1hdGVyaWEsIHV0aWxpY2UgZW4gdG9kYXMgc3VzIGZvcm1hcywgbG9zIGRlcmVjaG9zIHBhdHJpbW9uaWFsZXMgZGUgcmVwcm9kdWNjacOzbiwgY29tdW5pY2FjacOzbiBww7pibGljYSwgdHJhbnNmb3JtYWNpw7NuIHkgZGlzdHJpYnVjacOzbiAoYWxxdWlsZXIsIHByw6lzdGFtbyBww7pibGljbyBlIGltcG9ydGFjacOzbikgcXVlIG1lIGNvcnJlc3BvbmRlbiBjb21vIGNyZWFkb3IgZGUgbGEgb2JyYSBvYmpldG8gZGVsIHByZXNlbnRlIGRvY3VtZW50by4gIAoKCkxhIHByZXNlbnRlIGF1dG9yaXphY2nDs24gc2UgZW1pdGUgZW4gY2FsaWRhZCBkZSBhdXRvciBkZSBsYSBvYnJhIG9iamV0byBkZWwgcHJlc2VudGUgZG9jdW1lbnRvIHkgbm8gY29ycmVzcG9uZGUgYSBjZXNpw7NuIGRlIGRlcmVjaG9zLCBzaW5vIGEgbGEgYXV0b3JpemFjacOzbiBkZSB1c28gYWNhZMOpbWljbyBkZSBjb25mb3JtaWRhZCBjb24gbG8gYW50ZXJpb3JtZW50ZSBzZcOxYWxhZG8uIExhIHByZXNlbnRlIGF1dG9yaXphY2nDs24gc2UgaGFjZSBleHRlbnNpdmEgbm8gc29sbyBhIGxhcyBmYWN1bHRhZGVzIHkgZGVyZWNob3MgZGUgdXNvIHNvYnJlIGxhIG9icmEgZW4gZm9ybWF0byBvIHNvcG9ydGUgbWF0ZXJpYWwsIHNpbm8gdGFtYmnDqW4gcGFyYSBmb3JtYXRvIGVsZWN0csOzbmljbywgeSBlbiBnZW5lcmFsIHBhcmEgY3VhbHF1aWVyIGZvcm1hdG8gY29ub2NpZG8gbyBwb3IgY29ub2Nlci4gCgoKRWwgYXV0b3IsIG1hbmlmaWVzdGEgcXVlIGxhIG9icmEgb2JqZXRvIGRlIGxhIHByZXNlbnRlIGF1dG9yaXphY2nDs24gZXMgb3JpZ2luYWwgeSBsYSByZWFsaXrDsyBzaW4gdmlvbGFyIG8gdXN1cnBhciBkZXJlY2hvcyBkZSBhdXRvciBkZSB0ZXJjZXJvcywgcG9yIGxvIHRhbnRvLCBsYSBvYnJhIGVzIGRlIHN1IGV4Y2x1c2l2YSBhdXRvcsOtYSB5IHRpZW5lIGxhIHRpdHVsYXJpZGFkIHNvYnJlIGxhIG1pc21hLiAKCgpFbiBjYXNvIGRlIHByZXNlbnRhcnNlIGN1YWxxdWllciByZWNsYW1hY2nDs24gbyBhY2Npw7NuIHBvciBwYXJ0ZSBkZSB1biB0ZXJjZXJvIGVuIGN1YW50byBhIGxvcyBkZXJlY2hvcyBkZSBhdXRvciBzb2JyZSBsYSBvYnJhIGVuIGN1ZXN0acOzbiwgZWwgYXV0b3IgYXN1bWlyw6EgdG9kYSBsYSByZXNwb25zYWJpbGlkYWQsIHkgc2FsZHLDoSBkZSBkZWZlbnNhIGRlIGxvcyBkZXJlY2hvcyBhcXXDrSBhdXRvcml6YWRvcywgcGFyYSB0b2RvcyBsb3MgZWZlY3RvcyBsYSBVbml2ZXJzaWRhZCBhY3TDumEgY29tbyB1biB0ZXJjZXJvIGRlIGJ1ZW5hIGZlLiAKCg==