Aproximación estocástica con dos escalas de tiempo en algoritmos Actor-Critic

Esta tesis profundiza en el algoritmo Actor-Critic de Reinforcement Learning, destacando su capacidad para manejar problemas complejos y de alta dimensión. Se presenta una sólida fundamentación teórica que respalda la convergencia del algoritmo mediante la Aproximación Estocástica con dos escalas de...

Full description

Autores:
Fino Villamil, Santiago
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2021
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/73682
Acceso en línea:
https://hdl.handle.net/1992/73682
Palabra clave:
Optimización
Machine learning
Reinforcement learning
Aproximación estocástica
Matemáticas
Rights
openAccess
License
Attribution 4.0 International
id UNIANDES2_7a0f91aa6c57943c5929dab7a4b0c0c4
oai_identifier_str oai:repositorio.uniandes.edu.co:1992/73682
network_acronym_str UNIANDES2
network_name_str Séneca: repositorio Uniandes
repository_id_str
dc.title.none.fl_str_mv Aproximación estocástica con dos escalas de tiempo en algoritmos Actor-Critic
title Aproximación estocástica con dos escalas de tiempo en algoritmos Actor-Critic
spellingShingle Aproximación estocástica con dos escalas de tiempo en algoritmos Actor-Critic
Optimización
Machine learning
Reinforcement learning
Aproximación estocástica
Matemáticas
title_short Aproximación estocástica con dos escalas de tiempo en algoritmos Actor-Critic
title_full Aproximación estocástica con dos escalas de tiempo en algoritmos Actor-Critic
title_fullStr Aproximación estocástica con dos escalas de tiempo en algoritmos Actor-Critic
title_full_unstemmed Aproximación estocástica con dos escalas de tiempo en algoritmos Actor-Critic
title_sort Aproximación estocástica con dos escalas de tiempo en algoritmos Actor-Critic
dc.creator.fl_str_mv Fino Villamil, Santiago
dc.contributor.advisor.none.fl_str_mv Junca Peláez, Mauricio José
dc.contributor.author.none.fl_str_mv Fino Villamil, Santiago
dc.contributor.jury.none.fl_str_mv Hoegele, Michael Anton
dc.subject.keyword.none.fl_str_mv Optimización
Machine learning
Reinforcement learning
Aproximación estocástica
topic Optimización
Machine learning
Reinforcement learning
Aproximación estocástica
Matemáticas
dc.subject.themes.none.fl_str_mv Matemáticas
description Esta tesis profundiza en el algoritmo Actor-Critic de Reinforcement Learning, destacando su capacidad para manejar problemas complejos y de alta dimensión. Se presenta una sólida fundamentación teórica que respalda la convergencia del algoritmo mediante la Aproximación Estocástica con dos escalas de tiempo. Además, se incluye un ejemplo práctico simulado, ilustrando la eficacia y aplicabilidad del algoritmo en escenarios del mundo real, demostrando así su potencial en diversas aplicaciones prácticas.
publishDate 2021
dc.date.issued.none.fl_str_mv 2021-12-06
dc.date.accessioned.none.fl_str_mv 2024-01-31T15:55:07Z
dc.date.available.none.fl_str_mv 2024-01-31T15:55:07Z
dc.type.none.fl_str_mv Trabajo de grado - Pregrado
dc.type.driver.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.version.none.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.content.none.fl_str_mv Text
dc.type.redcol.none.fl_str_mv http://purl.org/redcol/resource_type/TP
format http://purl.org/coar/resource_type/c_7a1f
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/1992/73682
dc.identifier.instname.none.fl_str_mv instname:Universidad de los Andes
dc.identifier.reponame.none.fl_str_mv reponame:Repositorio Institucional Séneca
dc.identifier.repourl.none.fl_str_mv repourl:https://repositorio.uniandes.edu.co/
url https://hdl.handle.net/1992/73682
identifier_str_mv instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
repourl:https://repositorio.uniandes.edu.co/
dc.language.iso.none.fl_str_mv spa
language spa
dc.relation.references.none.fl_str_mv J. Bagnell and J. Schneider. Covariant policy search. Proceedings of International Joint Conference on Artificial Inteligence, 2003.
M. Benaim. A dynamical system approach to stochastic approximation. SIAM Journal on Control and Optimization, (34), 1996.
S. Bhatnagar, R. Sutton, M. Ghavamzadeh, and M. Lee. Natural actor-critic algorithms. Automatica, 45, 2009.
V. Bokar. Stochastic approximation with two time scales. Systems & Control Letters, (29), 1997.
V. Bokar. Stochastic Approximation : A Dynamical Systems Viewpoint. Springer, 2009.
V. Bokar and P. Meyn. The o.d.e. method for convergence of stochastic approximation and reinforcement learning. Society for Industrial and Applied Mathematics, 38(2), 2000.
B. P. Greensmith, E. and J. Baxter. Variance reduction techniques for gradient estimates in reinforcement learning. Journal of Machine Learning Research, 2004.
M. Hirsch and S. Smale. Differential Equations, Dynamical Systems and Linear Algebra. ACADEMIC PRESS, INC, 1970.
V. Konda and J. Tsitsiklis. Actor-Critic Algorithms. PhD thesis, MIT Department of Electrical Engineering and Computer Science, 2002.
H. Kushner and D. Clark. Stochastic Approximation Methods for Constrained and Unconstrained Systems. Springer-Verlag, 1978.
D. Levin, Y. Peres, and E. Wilmer. Markov Chains and Mixing Times, volume 107. American Mathematical Society, 2017.
M. Puterman. Markov Decision Processes Discrete Stochastic Dynamic Programming. Wiley Series in Probability and Mathematical Statistics: Applied Probability and Statistics Section. John Wiley & Sons, Inc., Hoboken, New Jersey, 1994.
R. Sutton and A. Barto. Reinforcement Learning An Introduction. Adaptive computation and machine learning series. Cambridge, MA: The MIT Press, second edition, 2018.
R. Sutton, D. McAllester, S. Singh, and Y. Mansour. Policy gradient methods for reinforcement learning with function approximation. Advances in neural information with function approximation, 2000.
D. Williams. Probability with Martingales. Cambridge University Press, 1991.
dc.rights.en.fl_str_mv Attribution 4.0 International
dc.rights.uri.none.fl_str_mv http://creativecommons.org/licenses/by/4.0/
dc.rights.accessrights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.none.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv Attribution 4.0 International
http://creativecommons.org/licenses/by/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.none.fl_str_mv 64 páginas
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de los Andes
dc.publisher.program.none.fl_str_mv Matemáticas
dc.publisher.faculty.none.fl_str_mv Facultad de Ciencias
dc.publisher.department.none.fl_str_mv Departamento de Matemáticas
publisher.none.fl_str_mv Universidad de los Andes
institution Universidad de los Andes
bitstream.url.fl_str_mv https://repositorio.uniandes.edu.co/bitstreams/676163df-375b-4c5b-afbf-9b81da4f401b/download
https://repositorio.uniandes.edu.co/bitstreams/fce70cdb-da79-4b1b-ab36-0e6e821dc767/download
https://repositorio.uniandes.edu.co/bitstreams/69e1289e-73f2-4010-be4b-5fa9ec8bc189/download
https://repositorio.uniandes.edu.co/bitstreams/02ef0680-7fec-49c6-ab4f-a86c4eb3105b/download
https://repositorio.uniandes.edu.co/bitstreams/1405c290-9280-4b7d-8242-bba59524a8af/download
https://repositorio.uniandes.edu.co/bitstreams/f241ce16-c19e-489b-b38f-dc4ea48fed14/download
https://repositorio.uniandes.edu.co/bitstreams/ad1d6735-80b5-4a0c-894b-1a925a204ecc/download
https://repositorio.uniandes.edu.co/bitstreams/7e053ea5-b556-455c-83db-7ca7a2125e58/download
bitstream.checksum.fl_str_mv 82841b76d7568d87525f5a98250d0e37
55552d330a0e4ee78135ad8edcd69c9c
0175ea4a2d4caec4bbcc37e300941108
ae9e573a68e7f92501b6913cc846c39f
e4586d24aa7488c0bcfbeb0cebd15a6f
4064a69fcf92ccc1017b5fb041ca597f
3429f6f4e3f3ba5324aaaa9f0d74fb1d
d5b45ec370b605e641a7a967499438c2
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio institucional Séneca
repository.mail.fl_str_mv adminrepositorio@uniandes.edu.co
_version_ 1818112092423585792
spelling Junca Peláez, Mauricio Josévirtual::21191-1Fino Villamil, SantiagoHoegele, Michael Anton2024-01-31T15:55:07Z2024-01-31T15:55:07Z2021-12-06https://hdl.handle.net/1992/73682instname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/Esta tesis profundiza en el algoritmo Actor-Critic de Reinforcement Learning, destacando su capacidad para manejar problemas complejos y de alta dimensión. Se presenta una sólida fundamentación teórica que respalda la convergencia del algoritmo mediante la Aproximación Estocástica con dos escalas de tiempo. Además, se incluye un ejemplo práctico simulado, ilustrando la eficacia y aplicabilidad del algoritmo en escenarios del mundo real, demostrando así su potencial en diversas aplicaciones prácticas.MatemáticoPregrado64 páginasapplication/pdfspaUniversidad de los AndesMatemáticasFacultad de CienciasDepartamento de MatemáticasAttribution 4.0 Internationalhttp://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Aproximación estocástica con dos escalas de tiempo en algoritmos Actor-CriticTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_7a1fTexthttp://purl.org/redcol/resource_type/TPOptimizaciónMachine learningReinforcement learningAproximación estocásticaMatemáticasJ. Bagnell and J. Schneider. Covariant policy search. Proceedings of International Joint Conference on Artificial Inteligence, 2003.M. Benaim. A dynamical system approach to stochastic approximation. SIAM Journal on Control and Optimization, (34), 1996.S. Bhatnagar, R. Sutton, M. Ghavamzadeh, and M. Lee. Natural actor-critic algorithms. Automatica, 45, 2009.V. Bokar. Stochastic approximation with two time scales. Systems & Control Letters, (29), 1997.V. Bokar. Stochastic Approximation : A Dynamical Systems Viewpoint. Springer, 2009.V. Bokar and P. Meyn. The o.d.e. method for convergence of stochastic approximation and reinforcement learning. Society for Industrial and Applied Mathematics, 38(2), 2000.B. P. Greensmith, E. and J. Baxter. Variance reduction techniques for gradient estimates in reinforcement learning. Journal of Machine Learning Research, 2004.M. Hirsch and S. Smale. Differential Equations, Dynamical Systems and Linear Algebra. ACADEMIC PRESS, INC, 1970.V. Konda and J. Tsitsiklis. Actor-Critic Algorithms. PhD thesis, MIT Department of Electrical Engineering and Computer Science, 2002.H. Kushner and D. Clark. Stochastic Approximation Methods for Constrained and Unconstrained Systems. Springer-Verlag, 1978.D. Levin, Y. Peres, and E. Wilmer. Markov Chains and Mixing Times, volume 107. American Mathematical Society, 2017.M. Puterman. Markov Decision Processes Discrete Stochastic Dynamic Programming. Wiley Series in Probability and Mathematical Statistics: Applied Probability and Statistics Section. John Wiley & Sons, Inc., Hoboken, New Jersey, 1994.R. Sutton and A. Barto. Reinforcement Learning An Introduction. Adaptive computation and machine learning series. Cambridge, MA: The MIT Press, second edition, 2018.R. Sutton, D. McAllester, S. Singh, and Y. Mansour. Policy gradient methods for reinforcement learning with function approximation. Advances in neural information with function approximation, 2000.D. Williams. Probability with Martingales. Cambridge University Press, 1991.201712978Publicationhttps://scholar.google.es/citations?user=CoIlxH0AAAAJvirtual::21191-10000-0002-5541-0758virtual::21191-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000155861virtual::21191-11e5c3dc6-4d9c-406b-9f99-5c91523b7e49virtual::21191-11e5c3dc6-4d9c-406b-9f99-5c91523b7e49virtual::21191-1ORIGINALAproximación Estocástica con dos Escalas de Tiempo en Algoritmos Actor-Critic.pdfAproximación Estocástica con dos Escalas de Tiempo en Algoritmos Actor-Critic.pdfapplication/pdf1439291https://repositorio.uniandes.edu.co/bitstreams/676163df-375b-4c5b-afbf-9b81da4f401b/download82841b76d7568d87525f5a98250d0e37MD51autorizacion-tesis.pdfautorizacion-tesis.pdfHIDEapplication/pdf302055https://repositorio.uniandes.edu.co/bitstreams/fce70cdb-da79-4b1b-ab36-0e6e821dc767/download55552d330a0e4ee78135ad8edcd69c9cMD54CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8908https://repositorio.uniandes.edu.co/bitstreams/69e1289e-73f2-4010-be4b-5fa9ec8bc189/download0175ea4a2d4caec4bbcc37e300941108MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82535https://repositorio.uniandes.edu.co/bitstreams/02ef0680-7fec-49c6-ab4f-a86c4eb3105b/downloadae9e573a68e7f92501b6913cc846c39fMD53TEXTAproximación Estocástica con dos Escalas de Tiempo en Algoritmos Actor-Critic.pdf.txtAproximación Estocástica con dos Escalas de Tiempo en Algoritmos Actor-Critic.pdf.txtExtracted texttext/plain99316https://repositorio.uniandes.edu.co/bitstreams/1405c290-9280-4b7d-8242-bba59524a8af/downloade4586d24aa7488c0bcfbeb0cebd15a6fMD55autorizacion-tesis.pdf.txtautorizacion-tesis.pdf.txtExtracted texttext/plain2014https://repositorio.uniandes.edu.co/bitstreams/f241ce16-c19e-489b-b38f-dc4ea48fed14/download4064a69fcf92ccc1017b5fb041ca597fMD57THUMBNAILAproximación Estocástica con dos Escalas de Tiempo en Algoritmos Actor-Critic.pdf.jpgAproximación Estocástica con dos Escalas de Tiempo en Algoritmos Actor-Critic.pdf.jpgGenerated Thumbnailimage/jpeg6836https://repositorio.uniandes.edu.co/bitstreams/ad1d6735-80b5-4a0c-894b-1a925a204ecc/download3429f6f4e3f3ba5324aaaa9f0d74fb1dMD56autorizacion-tesis.pdf.jpgautorizacion-tesis.pdf.jpgGenerated Thumbnailimage/jpeg10849https://repositorio.uniandes.edu.co/bitstreams/7e053ea5-b556-455c-83db-7ca7a2125e58/downloadd5b45ec370b605e641a7a967499438c2MD581992/73682oai:repositorio.uniandes.edu.co:1992/736822024-12-04 17:07:15.1http://creativecommons.org/licenses/by/4.0/Attribution 4.0 Internationalopen.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.coPGgzPjxzdHJvbmc+RGVzY2FyZ28gZGUgUmVzcG9uc2FiaWxpZGFkIC0gTGljZW5jaWEgZGUgQXV0b3JpemFjacOzbjwvc3Ryb25nPjwvaDM+CjxwPjxzdHJvbmc+UG9yIGZhdm9yIGxlZXIgYXRlbnRhbWVudGUgZXN0ZSBkb2N1bWVudG8gcXVlIHBlcm1pdGUgYWwgUmVwb3NpdG9yaW8gSW5zdGl0dWNpb25hbCBTw6luZWNhIHJlcHJvZHVjaXIgeSBkaXN0cmlidWlyIGxvcyByZWN1cnNvcyBkZSBpbmZvcm1hY2nDs24gZGVwb3NpdGFkb3MgbWVkaWFudGUgbGEgYXV0b3JpemFjacOzbiBkZSBsb3Mgc2lndWllbnRlcyB0w6lybWlub3M6PC9zdHJvbmc+PC9wPgo8cD5Db25jZWRhIGxhIGxpY2VuY2lhIGRlIGRlcMOzc2l0byBlc3TDoW5kYXIgc2VsZWNjaW9uYW5kbyBsYSBvcGNpw7NuIDxzdHJvbmc+J0FjZXB0YXIgbG9zIHTDqXJtaW5vcyBhbnRlcmlvcm1lbnRlIGRlc2NyaXRvcyc8L3N0cm9uZz4geSBjb250aW51YXIgZWwgcHJvY2VzbyBkZSBlbnbDrW8gbWVkaWFudGUgZWwgYm90w7NuIDxzdHJvbmc+J1NpZ3VpZW50ZScuPC9zdHJvbmc+PC9wPgo8aHI+CjxwPllvLCBlbiBtaSBjYWxpZGFkIGRlIGF1dG9yIGRlbCB0cmFiYWpvIGRlIHRlc2lzLCBtb25vZ3JhZsOtYSBvIHRyYWJham8gZGUgZ3JhZG8sIGhhZ28gZW50cmVnYSBkZWwgZWplbXBsYXIgcmVzcGVjdGl2byB5IGRlIHN1cyBhbmV4b3MgZGUgc2VyIGVsIGNhc28sIGVuIGZvcm1hdG8gZGlnaXRhbCB5L28gZWxlY3Ryw7NuaWNvIHkgYXV0b3Jpem8gYSBsYSBVbml2ZXJzaWRhZCBkZSBsb3MgQW5kZXMgcGFyYSBxdWUgcmVhbGljZSBsYSBwdWJsaWNhY2nDs24gZW4gZWwgU2lzdGVtYSBkZSBCaWJsaW90ZWNhcyBvIGVuIGN1YWxxdWllciBvdHJvIHNpc3RlbWEgbyBiYXNlIGRlIGRhdG9zIHByb3BpbyBvIGFqZW5vIGEgbGEgVW5pdmVyc2lkYWQgeSBwYXJhIHF1ZSBlbiBsb3MgdMOpcm1pbm9zIGVzdGFibGVjaWRvcyBlbiBsYSBMZXkgMjMgZGUgMTk4MiwgTGV5IDQ0IGRlIDE5OTMsIERlY2lzacOzbiBBbmRpbmEgMzUxIGRlIDE5OTMsIERlY3JldG8gNDYwIGRlIDE5OTUgeSBkZW3DoXMgbm9ybWFzIGdlbmVyYWxlcyBzb2JyZSBsYSBtYXRlcmlhLCB1dGlsaWNlIGVuIHRvZGFzIHN1cyBmb3JtYXMsIGxvcyBkZXJlY2hvcyBwYXRyaW1vbmlhbGVzIGRlIHJlcHJvZHVjY2nDs24sIGNvbXVuaWNhY2nDs24gcMO6YmxpY2EsIHRyYW5zZm9ybWFjacOzbiB5IGRpc3RyaWJ1Y2nDs24gKGFscXVpbGVyLCBwcsOpc3RhbW8gcMO6YmxpY28gZSBpbXBvcnRhY2nDs24pIHF1ZSBtZSBjb3JyZXNwb25kZW4gY29tbyBjcmVhZG9yIGRlIGxhIG9icmEgb2JqZXRvIGRlbCBwcmVzZW50ZSBkb2N1bWVudG8uPC9wPgo8cD5MYSBwcmVzZW50ZSBhdXRvcml6YWNpw7NuIHNlIGVtaXRlIGVuIGNhbGlkYWQgZGUgYXV0b3IgZGUgbGEgb2JyYSBvYmpldG8gZGVsIHByZXNlbnRlIGRvY3VtZW50byB5IG5vIGNvcnJlc3BvbmRlIGEgY2VzacOzbiBkZSBkZXJlY2hvcywgc2lubyBhIGxhIGF1dG9yaXphY2nDs24gZGUgdXNvIGFjYWTDqW1pY28gZGUgY29uZm9ybWlkYWQgY29uIGxvIGFudGVyaW9ybWVudGUgc2XDsWFsYWRvLiBMYSBwcmVzZW50ZSBhdXRvcml6YWNpw7NuIHNlIGhhY2UgZXh0ZW5zaXZhIG5vIHNvbG8gYSBsYXMgZmFjdWx0YWRlcyB5IGRlcmVjaG9zIGRlIHVzbyBzb2JyZSBsYSBvYnJhIGVuIGZvcm1hdG8gbyBzb3BvcnRlIG1hdGVyaWFsLCBzaW5vIHRhbWJpw6luIHBhcmEgZm9ybWF0byBlbGVjdHLDs25pY28sIHkgZW4gZ2VuZXJhbCBwYXJhIGN1YWxxdWllciBmb3JtYXRvIGNvbm9jaWRvIG8gcG9yIGNvbm9jZXIuPC9wPgo8cD5FbCBhdXRvciwgbWFuaWZpZXN0YSBxdWUgbGEgb2JyYSBvYmpldG8gZGUgbGEgcHJlc2VudGUgYXV0b3JpemFjacOzbiBlcyBvcmlnaW5hbCB5IGxhIHJlYWxpesOzIHNpbiB2aW9sYXIgbyB1c3VycGFyIGRlcmVjaG9zIGRlIGF1dG9yIGRlIHRlcmNlcm9zLCBwb3IgbG8gdGFudG8sIGxhIG9icmEgZXMgZGUgc3UgZXhjbHVzaXZhIGF1dG9yw61hIHkgdGllbmUgbGEgdGl0dWxhcmlkYWQgc29icmUgbGEgbWlzbWEuPC9wPgo8cD5FbiBjYXNvIGRlIHByZXNlbnRhcnNlIGN1YWxxdWllciByZWNsYW1hY2nDs24gbyBhY2Npw7NuIHBvciBwYXJ0ZSBkZSB1biB0ZXJjZXJvIGVuIGN1YW50byBhIGxvcyBkZXJlY2hvcyBkZSBhdXRvciBzb2JyZSBsYSBvYnJhIGVuIGN1ZXN0acOzbiwgZWwgYXV0b3IgYXN1bWlyw6EgdG9kYSBsYSByZXNwb25zYWJpbGlkYWQsIHkgc2FsZHLDoSBkZSBkZWZlbnNhIGRlIGxvcyBkZXJlY2hvcyBhcXXDrSBhdXRvcml6YWRvcywgcGFyYSB0b2RvcyBsb3MgZWZlY3RvcyBsYSBVbml2ZXJzaWRhZCBhY3TDumEgY29tbyB1biB0ZXJjZXJvIGRlIGJ1ZW5hIGZlLjwvcD4KPHA+U2kgdGllbmUgYWxndW5hIGR1ZGEgc29icmUgbGEgbGljZW5jaWEsIHBvciBmYXZvciwgY29udGFjdGUgY29uIGVsIDxhIGhyZWY9Im1haWx0bzpiaWJsaW90ZWNhQHVuaWFuZGVzLmVkdS5jbyIgdGFyZ2V0PSJfYmxhbmsiPkFkbWluaXN0cmFkb3IgZGVsIFNpc3RlbWEuPC9hPjwvcD4K