Evaluación de políticas bajo ruido Markoviano mediante el algoritmo de Online Bootstrap Inference
Este trabajo estudia la evaluación de políticas en Aprendizaje Reforzado (RL) en escenarios de dimensión grande o con incertidumbre. En este caso, el valor de la política que se quiere evaluar se aproxima de manera lineal, y se desarrolla usando Aproximación Lineal Estocástica (LSA) con ruido Markov...
- Autores:
-
Patrón Piñerez, Ana María
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2023
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/68318
- Acceso en línea:
- http://hdl.handle.net/1992/68318
- Palabra clave:
- Aprendizaje Reforzado
Aproximación Lineal Estocástica
Diferencias Temporales
Evaluación de políticas
Ruido Markoviano
Matemáticas
- Rights
- openAccess
- License
- Attribution-NoDerivatives 4.0 Internacional
id |
UNIANDES2_a70e560de79a852436e36ed0a4130925 |
---|---|
oai_identifier_str |
oai:repositorio.uniandes.edu.co:1992/68318 |
network_acronym_str |
UNIANDES2 |
network_name_str |
Séneca: repositorio Uniandes |
repository_id_str |
|
dc.title.none.fl_str_mv |
Evaluación de políticas bajo ruido Markoviano mediante el algoritmo de Online Bootstrap Inference |
title |
Evaluación de políticas bajo ruido Markoviano mediante el algoritmo de Online Bootstrap Inference |
spellingShingle |
Evaluación de políticas bajo ruido Markoviano mediante el algoritmo de Online Bootstrap Inference Aprendizaje Reforzado Aproximación Lineal Estocástica Diferencias Temporales Evaluación de políticas Ruido Markoviano Matemáticas |
title_short |
Evaluación de políticas bajo ruido Markoviano mediante el algoritmo de Online Bootstrap Inference |
title_full |
Evaluación de políticas bajo ruido Markoviano mediante el algoritmo de Online Bootstrap Inference |
title_fullStr |
Evaluación de políticas bajo ruido Markoviano mediante el algoritmo de Online Bootstrap Inference |
title_full_unstemmed |
Evaluación de políticas bajo ruido Markoviano mediante el algoritmo de Online Bootstrap Inference |
title_sort |
Evaluación de políticas bajo ruido Markoviano mediante el algoritmo de Online Bootstrap Inference |
dc.creator.fl_str_mv |
Patrón Piñerez, Ana María |
dc.contributor.advisor.none.fl_str_mv |
Junca Peláez, Mauricio José |
dc.contributor.author.none.fl_str_mv |
Patrón Piñerez, Ana María |
dc.contributor.jury.none.fl_str_mv |
Quiroz Salazar, Adolfo José |
dc.subject.keyword.none.fl_str_mv |
Aprendizaje Reforzado Aproximación Lineal Estocástica Diferencias Temporales Evaluación de políticas Ruido Markoviano |
topic |
Aprendizaje Reforzado Aproximación Lineal Estocástica Diferencias Temporales Evaluación de políticas Ruido Markoviano Matemáticas |
dc.subject.themes.es_CO.fl_str_mv |
Matemáticas |
description |
Este trabajo estudia la evaluación de políticas en Aprendizaje Reforzado (RL) en escenarios de dimensión grande o con incertidumbre. En este caso, el valor de la política que se quiere evaluar se aproxima de manera lineal, y se desarrolla usando Aproximación Lineal Estocástica (LSA) con ruido Markoviano. Los métodos clásicos, Diferencias Temporales y Gradientes de Diferencias Temporales, son ineficientes al estimar la función valor. Por eso, se estudia la alternativa que ofrece el algoritmo de Online Bootstrap Inference, el cual promete ser una mejora a los métodos existentes. |
publishDate |
2023 |
dc.date.accessioned.none.fl_str_mv |
2023-07-11T17:00:25Z |
dc.date.available.none.fl_str_mv |
2023-07-11T17:00:25Z |
dc.date.issued.none.fl_str_mv |
2023-06-06 |
dc.type.es_CO.fl_str_mv |
Trabajo de grado - Pregrado |
dc.type.driver.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
dc.type.version.none.fl_str_mv |
info:eu-repo/semantics/acceptedVersion |
dc.type.coar.none.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
dc.type.content.es_CO.fl_str_mv |
Text |
dc.type.redcol.none.fl_str_mv |
http://purl.org/redcol/resource_type/TP |
format |
http://purl.org/coar/resource_type/c_7a1f |
status_str |
acceptedVersion |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/1992/68318 |
dc.identifier.instname.es_CO.fl_str_mv |
instname:Universidad de los Andes |
dc.identifier.reponame.es_CO.fl_str_mv |
reponame:Repositorio Institucional Séneca |
dc.identifier.repourl.es_CO.fl_str_mv |
repourl:https://repositorio.uniandes.edu.co/ |
url |
http://hdl.handle.net/1992/68318 |
identifier_str_mv |
instname:Universidad de los Andes reponame:Repositorio Institucional Séneca repourl:https://repositorio.uniandes.edu.co/ |
dc.language.iso.es_CO.fl_str_mv |
spa |
language |
spa |
dc.relation.references.es_CO.fl_str_mv |
Arfé, A. (2017). Stochastic approximation and martingale methods. Notas de clase. Bach, F., Liu, Y., and Li, R. (2016). Statistical machine learning and convex optimization. Département d'Informatique de l'ENS (DI ENS). Bercu, B. (2019a). Asymptotic behavior of stochastic algorithms with statistical applications. part i. University of Bordeaux. ETICS Annual Research School,Fréjus. Bercu, B. (2019b). Asymptotic behavior of stochastic algorithms with statistical applications. part ii. University of Bordeaux. ETICS Annual Research School,Fréjus. Borkar, V. S. (2006). Stochastic approximation with controlled markov noise. Systems and Control Letters, 55(2):pp.139-145. Borkar, V. S. (2008). Stochastic approximation: A dynamical systems viewpoint. Cambridge University Press.Second Edition Haskell, W. B. (2018). Introduction to dynamic programming. National University of Singapore. ISE 6509: Theory and Algorithms for Dynamic Programming. Karmakar, P. (2020). Stochastic approximation with markov noise: Analysis and applications in reinforcement learning. CoRR, abs/2012.00805. Kushner, H. and Yin, G. (2003). Stochastic approximation and recursive algorithms and applications. Springer New York. Levin, D., Peres, Y., andWilmer, E. L. (2017). Markov chains and mixing times. American Mathematical Society Liang, F. (2010). Trajectory averaging for stochastic approximation mcmc algorithms. The Annals of Statistics.Vol. 38, No. 5 (October 2010), pp. 2823- 2856. Maei, H. R. (2011). Gradient temporal-difference learning algorithms. University of Alberta. Department of Computing Science. NIHMS (2023). Sepsis. U.S. Department of Health and Human Services, National Institutes of Health Oberst, M. and Sontag, D. (2019). Counterfactual offpolicy evaluation with gumbel-max structural causal models. Proceedings of the 36th International Conference on Machine Learning, pp. 4881-4890. Ramprasad, P., Li, Y., Yang, Z., Wang, Z., Sun, W., and Cheng, G. (2022). Online bootrstrap inference for policy evaluation in reinforcement learning. Journal of the American Statistical Association, pp. 1-14. Robbins, H. and Monroe, S. (1951). A stochastic approximation method. The Annals of Mathematical Statistics. 22(3): pp. 400-407. Sutton, R. and Barto, A. (2018). Reinforcement learning: An introduction. The MIT Press. Xu, T., Wang, Z., Zhou, Y., and Liang, Y. (2020). Reanalysis of variance reduced temporal difference learning. International Conference on Learning Representations. CoRR, abs/2001.01898 |
dc.rights.license.spa.fl_str_mv |
Attribution-NoDerivatives 4.0 Internacional |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nd/4.0/ |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.coar.spa.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
rights_invalid_str_mv |
Attribution-NoDerivatives 4.0 Internacional http://creativecommons.org/licenses/by-nd/4.0/ http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.extent.es_CO.fl_str_mv |
62 páginas |
dc.format.mimetype.es_CO.fl_str_mv |
application/pdf |
dc.publisher.es_CO.fl_str_mv |
Universidad de los Andes |
dc.publisher.program.es_CO.fl_str_mv |
Matemáticas |
dc.publisher.faculty.es_CO.fl_str_mv |
Facultad de Ciencias |
dc.publisher.department.es_CO.fl_str_mv |
Departamento de Matemáticas |
institution |
Universidad de los Andes |
bitstream.url.fl_str_mv |
https://repositorio.uniandes.edu.co/bitstreams/e3cafe33-4ec9-411f-8cfb-01f888410624/download https://repositorio.uniandes.edu.co/bitstreams/7eb21cda-9359-48df-9f5e-bfd542bce5f3/download https://repositorio.uniandes.edu.co/bitstreams/9f5615c4-2d2f-4f57-ad02-d353f0b97c1f/download https://repositorio.uniandes.edu.co/bitstreams/29503037-90f3-4550-8172-417fca720910/download https://repositorio.uniandes.edu.co/bitstreams/64672059-98c8-4830-86d4-e85ba72607c1/download https://repositorio.uniandes.edu.co/bitstreams/5eb98e4f-033d-4c2b-889a-95583473b2a7/download https://repositorio.uniandes.edu.co/bitstreams/09d262ca-54f5-4f33-af55-97e12067d90f/download https://repositorio.uniandes.edu.co/bitstreams/9bde6071-3d8c-4d15-b766-e24803ee8a21/download |
bitstream.checksum.fl_str_mv |
d0ddcb3f1367217e40c8bda414dd037e 08b106dfeb12472e88207a069e15ba30 fa0e4debc8ae741dc7e99eb5a11d87c4 81d27586afea73b43114262ac8e27a5f f7d494f61e544413a13e6ba1da2089cd e711f2447eee6af17652993377184a9c b07df2b8d3d4aa7e51cb3a2de8a1b20d 5aa5c691a1ffe97abd12c2966efcb8d6 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio institucional Séneca |
repository.mail.fl_str_mv |
adminrepositorio@uniandes.edu.co |
_version_ |
1818112064656244736 |
spelling |
Attribution-NoDerivatives 4.0 Internacionalhttp://creativecommons.org/licenses/by-nd/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Junca Peláez, Mauricio Josévirtual::17006-1Patrón Piñerez, Ana María7bd83ef7-4703-4dcc-8c87-24afe4d42e08600Quiroz Salazar, Adolfo José2023-07-11T17:00:25Z2023-07-11T17:00:25Z2023-06-06http://hdl.handle.net/1992/68318instname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/Este trabajo estudia la evaluación de políticas en Aprendizaje Reforzado (RL) en escenarios de dimensión grande o con incertidumbre. En este caso, el valor de la política que se quiere evaluar se aproxima de manera lineal, y se desarrolla usando Aproximación Lineal Estocástica (LSA) con ruido Markoviano. Los métodos clásicos, Diferencias Temporales y Gradientes de Diferencias Temporales, son ineficientes al estimar la función valor. Por eso, se estudia la alternativa que ofrece el algoritmo de Online Bootstrap Inference, el cual promete ser una mejora a los métodos existentes.MatemáticoPregrado62 páginasapplication/pdfspaUniversidad de los AndesMatemáticasFacultad de CienciasDepartamento de MatemáticasEvaluación de políticas bajo ruido Markoviano mediante el algoritmo de Online Bootstrap InferenceTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_7a1fTexthttp://purl.org/redcol/resource_type/TPAprendizaje ReforzadoAproximación Lineal EstocásticaDiferencias TemporalesEvaluación de políticasRuido MarkovianoMatemáticasArfé, A. (2017). Stochastic approximation and martingale methods. Notas de clase.Bach, F., Liu, Y., and Li, R. (2016). Statistical machine learning and convex optimization. Département d'Informatique de l'ENS (DI ENS).Bercu, B. (2019a). Asymptotic behavior of stochastic algorithms with statistical applications. part i. University of Bordeaux. ETICS Annual Research School,Fréjus.Bercu, B. (2019b). Asymptotic behavior of stochastic algorithms with statistical applications. part ii. University of Bordeaux. ETICS Annual Research School,Fréjus.Borkar, V. S. (2006). Stochastic approximation with controlled markov noise. Systems and Control Letters, 55(2):pp.139-145.Borkar, V. S. (2008). Stochastic approximation: A dynamical systems viewpoint. Cambridge University Press.Second EditionHaskell, W. B. (2018). Introduction to dynamic programming. National University of Singapore. ISE 6509: Theory and Algorithms for Dynamic Programming.Karmakar, P. (2020). Stochastic approximation with markov noise: Analysis and applications in reinforcement learning. CoRR, abs/2012.00805.Kushner, H. and Yin, G. (2003). Stochastic approximation and recursive algorithms and applications. Springer New York.Levin, D., Peres, Y., andWilmer, E. L. (2017). Markov chains and mixing times. American Mathematical SocietyLiang, F. (2010). Trajectory averaging for stochastic approximation mcmc algorithms. The Annals of Statistics.Vol. 38, No. 5 (October 2010), pp. 2823- 2856.Maei, H. R. (2011). Gradient temporal-difference learning algorithms. University of Alberta. Department of Computing Science.NIHMS (2023). Sepsis. U.S. Department of Health and Human Services, National Institutes of HealthOberst, M. and Sontag, D. (2019). Counterfactual offpolicy evaluation with gumbel-max structural causal models. Proceedings of the 36th International Conference on Machine Learning, pp. 4881-4890.Ramprasad, P., Li, Y., Yang, Z., Wang, Z., Sun, W., and Cheng, G. (2022). Online bootrstrap inference for policy evaluation in reinforcement learning. Journal of the American Statistical Association, pp. 1-14.Robbins, H. and Monroe, S. (1951). A stochastic approximation method. The Annals of Mathematical Statistics. 22(3): pp. 400-407.Sutton, R. and Barto, A. (2018). Reinforcement learning: An introduction. The MIT Press.Xu, T., Wang, Z., Zhou, Y., and Liang, Y. (2020). Reanalysis of variance reduced temporal difference learning. International Conference on Learning Representations. CoRR, abs/2001.01898201714291Publicationhttps://scholar.google.es/citations?user=CoIlxH0AAAAJvirtual::17006-10000-0002-5541-0758virtual::17006-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000155861virtual::17006-11e5c3dc6-4d9c-406b-9f99-5c91523b7e49virtual::17006-11e5c3dc6-4d9c-406b-9f99-5c91523b7e49virtual::17006-1TEXTTesis_PE_ruido_markoviano_Patron_Pinerez.pdf.txtTesis_PE_ruido_markoviano_Patron_Pinerez.pdf.txtExtracted texttext/plain74125https://repositorio.uniandes.edu.co/bitstreams/e3cafe33-4ec9-411f-8cfb-01f888410624/downloadd0ddcb3f1367217e40c8bda414dd037eMD55autorizacion tesis.pdf.txtautorizacion tesis.pdf.txtExtracted texttext/plain1161https://repositorio.uniandes.edu.co/bitstreams/7eb21cda-9359-48df-9f5e-bfd542bce5f3/download08b106dfeb12472e88207a069e15ba30MD57ORIGINALTesis_PE_ruido_markoviano_Patron_Pinerez.pdfTesis_PE_ruido_markoviano_Patron_Pinerez.pdfTrabajo de gradoapplication/pdf1625594https://repositorio.uniandes.edu.co/bitstreams/9f5615c4-2d2f-4f57-ad02-d353f0b97c1f/downloadfa0e4debc8ae741dc7e99eb5a11d87c4MD53autorizacion tesis.pdfautorizacion tesis.pdfHIDEapplication/pdf270637https://repositorio.uniandes.edu.co/bitstreams/29503037-90f3-4550-8172-417fca720910/download81d27586afea73b43114262ac8e27a5fMD54CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8799https://repositorio.uniandes.edu.co/bitstreams/64672059-98c8-4830-86d4-e85ba72607c1/downloadf7d494f61e544413a13e6ba1da2089cdMD52THUMBNAILTesis_PE_ruido_markoviano_Patron_Pinerez.pdf.jpgTesis_PE_ruido_markoviano_Patron_Pinerez.pdf.jpgIM Thumbnailimage/jpeg8017https://repositorio.uniandes.edu.co/bitstreams/5eb98e4f-033d-4c2b-889a-95583473b2a7/downloade711f2447eee6af17652993377184a9cMD56autorizacion tesis.pdf.jpgautorizacion tesis.pdf.jpgIM Thumbnailimage/jpeg16069https://repositorio.uniandes.edu.co/bitstreams/09d262ca-54f5-4f33-af55-97e12067d90f/downloadb07df2b8d3d4aa7e51cb3a2de8a1b20dMD58LICENSElicense.txtlicense.txttext/plain; charset=utf-81810https://repositorio.uniandes.edu.co/bitstreams/9bde6071-3d8c-4d15-b766-e24803ee8a21/download5aa5c691a1ffe97abd12c2966efcb8d6MD511992/68318oai:repositorio.uniandes.edu.co:1992/683182024-03-13 15:53:36.863http://creativecommons.org/licenses/by-nd/4.0/open.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.coWW8sIGVuIG1pIGNhbGlkYWQgZGUgYXV0b3IgZGVsIHRyYWJham8gZGUgdGVzaXMsIG1vbm9ncmFmw61hIG8gdHJhYmFqbyBkZSBncmFkbywgaGFnbyBlbnRyZWdhIGRlbCBlamVtcGxhciByZXNwZWN0aXZvIHkgZGUgc3VzIGFuZXhvcyBkZSBzZXIgZWwgY2FzbywgZW4gZm9ybWF0byBkaWdpdGFsIHkvbyBlbGVjdHLDs25pY28geSBhdXRvcml6byBhIGxhIFVuaXZlcnNpZGFkIGRlIGxvcyBBbmRlcyBwYXJhIHF1ZSByZWFsaWNlIGxhIHB1YmxpY2FjacOzbiBlbiBlbCBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIG8gZW4gY3VhbHF1aWVyIG90cm8gc2lzdGVtYSBvIGJhc2UgZGUgZGF0b3MgcHJvcGlvIG8gYWplbm8gYSBsYSBVbml2ZXJzaWRhZCB5IHBhcmEgcXVlIGVuIGxvcyB0w6lybWlub3MgZXN0YWJsZWNpZG9zIGVuIGxhIExleSAyMyBkZSAxOTgyLCBMZXkgNDQgZGUgMTk5MywgRGVjaXNpw7NuIEFuZGluYSAzNTEgZGUgMTk5MywgRGVjcmV0byA0NjAgZGUgMTk5NSB5IGRlbcOhcyBub3JtYXMgZ2VuZXJhbGVzIHNvYnJlIGxhIG1hdGVyaWEsIHV0aWxpY2UgZW4gdG9kYXMgc3VzIGZvcm1hcywgbG9zIGRlcmVjaG9zIHBhdHJpbW9uaWFsZXMgZGUgcmVwcm9kdWNjacOzbiwgY29tdW5pY2FjacOzbiBww7pibGljYSwgdHJhbnNmb3JtYWNpw7NuIHkgZGlzdHJpYnVjacOzbiAoYWxxdWlsZXIsIHByw6lzdGFtbyBww7pibGljbyBlIGltcG9ydGFjacOzbikgcXVlIG1lIGNvcnJlc3BvbmRlbiBjb21vIGNyZWFkb3IgZGUgbGEgb2JyYSBvYmpldG8gZGVsIHByZXNlbnRlIGRvY3VtZW50by4gIAoKCkxhIHByZXNlbnRlIGF1dG9yaXphY2nDs24gc2UgZW1pdGUgZW4gY2FsaWRhZCBkZSBhdXRvciBkZSBsYSBvYnJhIG9iamV0byBkZWwgcHJlc2VudGUgZG9jdW1lbnRvIHkgbm8gY29ycmVzcG9uZGUgYSBjZXNpw7NuIGRlIGRlcmVjaG9zLCBzaW5vIGEgbGEgYXV0b3JpemFjacOzbiBkZSB1c28gYWNhZMOpbWljbyBkZSBjb25mb3JtaWRhZCBjb24gbG8gYW50ZXJpb3JtZW50ZSBzZcOxYWxhZG8uIExhIHByZXNlbnRlIGF1dG9yaXphY2nDs24gc2UgaGFjZSBleHRlbnNpdmEgbm8gc29sbyBhIGxhcyBmYWN1bHRhZGVzIHkgZGVyZWNob3MgZGUgdXNvIHNvYnJlIGxhIG9icmEgZW4gZm9ybWF0byBvIHNvcG9ydGUgbWF0ZXJpYWwsIHNpbm8gdGFtYmnDqW4gcGFyYSBmb3JtYXRvIGVsZWN0csOzbmljbywgeSBlbiBnZW5lcmFsIHBhcmEgY3VhbHF1aWVyIGZvcm1hdG8gY29ub2NpZG8gbyBwb3IgY29ub2Nlci4gCgoKRWwgYXV0b3IsIG1hbmlmaWVzdGEgcXVlIGxhIG9icmEgb2JqZXRvIGRlIGxhIHByZXNlbnRlIGF1dG9yaXphY2nDs24gZXMgb3JpZ2luYWwgeSBsYSByZWFsaXrDsyBzaW4gdmlvbGFyIG8gdXN1cnBhciBkZXJlY2hvcyBkZSBhdXRvciBkZSB0ZXJjZXJvcywgcG9yIGxvIHRhbnRvLCBsYSBvYnJhIGVzIGRlIHN1IGV4Y2x1c2l2YSBhdXRvcsOtYSB5IHRpZW5lIGxhIHRpdHVsYXJpZGFkIHNvYnJlIGxhIG1pc21hLiAKCgpFbiBjYXNvIGRlIHByZXNlbnRhcnNlIGN1YWxxdWllciByZWNsYW1hY2nDs24gbyBhY2Npw7NuIHBvciBwYXJ0ZSBkZSB1biB0ZXJjZXJvIGVuIGN1YW50byBhIGxvcyBkZXJlY2hvcyBkZSBhdXRvciBzb2JyZSBsYSBvYnJhIGVuIGN1ZXN0acOzbiwgZWwgYXV0b3IgYXN1bWlyw6EgdG9kYSBsYSByZXNwb25zYWJpbGlkYWQsIHkgc2FsZHLDoSBkZSBkZWZlbnNhIGRlIGxvcyBkZXJlY2hvcyBhcXXDrSBhdXRvcml6YWRvcywgcGFyYSB0b2RvcyBsb3MgZWZlY3RvcyBsYSBVbml2ZXJzaWRhZCBhY3TDumEgY29tbyB1biB0ZXJjZXJvIGRlIGJ1ZW5hIGZlLiAKCg== |