Gradiente estocástico y aproximación estocástica aplicados a Q-learning

The project is motivated to demonstrate the convergence of Q-learning. This is an algorithm applied to finite Markov decision processes in discrete time, where there is not enough information. Thus, what the algorithm seeks is to solve the optimality equations (or Bellman's equations). With thi...

Full description

Autores:
ñungo Manrique, José Sebastián
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2020
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/51295
Acceso en línea:
http://hdl.handle.net/1992/51295
Palabra clave:
Optimización matemática
Funciones convexas
Métodos iterativos (Matemáticas)
Aproximación estocástica
Aprendizaje por refuerzo (Aprendizaje automático)
Procesos de Markov
Procesos estocásticos
Matemáticas
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-sa/4.0/
id UNIANDES2_c9c34d1ba7b215d5f69e539e4b6eef33
oai_identifier_str oai:repositorio.uniandes.edu.co:1992/51295
network_acronym_str UNIANDES2
network_name_str Séneca: repositorio Uniandes
repository_id_str
dc.title.spa.fl_str_mv Gradiente estocástico y aproximación estocástica aplicados a Q-learning
title Gradiente estocástico y aproximación estocástica aplicados a Q-learning
spellingShingle Gradiente estocástico y aproximación estocástica aplicados a Q-learning
Optimización matemática
Funciones convexas
Métodos iterativos (Matemáticas)
Aproximación estocástica
Aprendizaje por refuerzo (Aprendizaje automático)
Procesos de Markov
Procesos estocásticos
Matemáticas
title_short Gradiente estocástico y aproximación estocástica aplicados a Q-learning
title_full Gradiente estocástico y aproximación estocástica aplicados a Q-learning
title_fullStr Gradiente estocástico y aproximación estocástica aplicados a Q-learning
title_full_unstemmed Gradiente estocástico y aproximación estocástica aplicados a Q-learning
title_sort Gradiente estocástico y aproximación estocástica aplicados a Q-learning
dc.creator.fl_str_mv ñungo Manrique, José Sebastián
dc.contributor.advisor.none.fl_str_mv Junca Peláez, Mauricio José
dc.contributor.author.none.fl_str_mv ñungo Manrique, José Sebastián
dc.contributor.jury.none.fl_str_mv Velasco Gregory, Mauricio Fernando
dc.subject.armarc.spa.fl_str_mv Optimización matemática
Funciones convexas
Métodos iterativos (Matemáticas)
Aproximación estocástica
Aprendizaje por refuerzo (Aprendizaje automático)
Procesos de Markov
Procesos estocásticos
topic Optimización matemática
Funciones convexas
Métodos iterativos (Matemáticas)
Aproximación estocástica
Aprendizaje por refuerzo (Aprendizaje automático)
Procesos de Markov
Procesos estocásticos
Matemáticas
dc.subject.themes.none.fl_str_mv Matemáticas
description The project is motivated to demonstrate the convergence of Q-learning. This is an algorithm applied to finite Markov decision processes in discrete time, where there is not enough information. Thus, what the algorithm seeks is to solve the optimality equations (or Bellman's equations). With this purpose in mind, in the project we discussed four main things: 1. Finite Markov decision processes in discrete time, which is the model that interests us from the beginning. 2. Stochastic approximation (SA), which is the algorithm that serves as the general framework for many algorithms, including Q-learning. Under some premises we will be able to establish the convergence of A.E. 3. Stochastic gradient descent method, which is the main tool by which the convergence of the A.E. algorithm can be established. (and many of the Machine Learning algorithms) 4. Reinforcement learning, which is the branch in which the Q-learning algorithm is found.
publishDate 2020
dc.date.issued.none.fl_str_mv 2020
dc.date.accessioned.none.fl_str_mv 2021-08-10T18:19:10Z
dc.date.available.none.fl_str_mv 2021-08-10T18:19:10Z
dc.type.spa.fl_str_mv Trabajo de grado - Pregrado
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TP
format http://purl.org/coar/resource_type/c_7a1f
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/1992/51295
dc.identifier.pdf.none.fl_str_mv 22979.pdf
dc.identifier.instname.spa.fl_str_mv instname:Universidad de los Andes
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional Séneca
dc.identifier.repourl.spa.fl_str_mv repourl:https://repositorio.uniandes.edu.co/
url http://hdl.handle.net/1992/51295
identifier_str_mv 22979.pdf
instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
repourl:https://repositorio.uniandes.edu.co/
dc.language.iso.none.fl_str_mv spa
language spa
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.none.fl_str_mv 55 hojas
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de los Andes
dc.publisher.program.none.fl_str_mv Matemáticas
dc.publisher.faculty.none.fl_str_mv Facultad de Ciencias
dc.publisher.department.none.fl_str_mv Departamento de Matemáticas
publisher.none.fl_str_mv Universidad de los Andes
institution Universidad de los Andes
bitstream.url.fl_str_mv https://repositorio.uniandes.edu.co/bitstreams/faf92b47-0871-4308-a4b8-2d8cd8edac43/download
https://repositorio.uniandes.edu.co/bitstreams/1d2aa866-724b-4766-9f88-000494fb46a5/download
https://repositorio.uniandes.edu.co/bitstreams/1363739d-583e-42d7-966e-172fdfeabf16/download
bitstream.checksum.fl_str_mv c273893031a5e1a1e4db8ab9fff6e6c9
5b576351daaa6cea902579a45dfe11e4
22b9a4c0b9f744f9e9288c8c91ecefe4
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio institucional Séneca
repository.mail.fl_str_mv adminrepositorio@uniandes.edu.co
_version_ 1812134069080686592
spelling Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.http://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Junca Peláez, Mauricio Josévirtual::16940-1ñungo Manrique, José Sebastiánb9935327-afed-4211-a279-abaf8ae814d2500Velasco Gregory, Mauricio Fernando2021-08-10T18:19:10Z2021-08-10T18:19:10Z2020http://hdl.handle.net/1992/5129522979.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/The project is motivated to demonstrate the convergence of Q-learning. This is an algorithm applied to finite Markov decision processes in discrete time, where there is not enough information. Thus, what the algorithm seeks is to solve the optimality equations (or Bellman's equations). With this purpose in mind, in the project we discussed four main things: 1. Finite Markov decision processes in discrete time, which is the model that interests us from the beginning. 2. Stochastic approximation (SA), which is the algorithm that serves as the general framework for many algorithms, including Q-learning. Under some premises we will be able to establish the convergence of A.E. 3. Stochastic gradient descent method, which is the main tool by which the convergence of the A.E. algorithm can be established. (and many of the Machine Learning algorithms) 4. Reinforcement learning, which is the branch in which the Q-learning algorithm is found.El proyecto está motivado en demostrar la convergencia de Q-learning. Este es una algoritmo aplicado a Procesos de decisión de Markov finitos en tiempo discreto, donde no se tiene suficiente información. Así, lo que busca el algoritmo es solucionar las ecuaciones de optimalidad (o ecuaciones de Bellman). Con este propósito en mente, en el proyecto discutimos cuatro cosas principalmente: 1. Procesos de decisión de Markov finitos en tiempo discreto, que es el modelo que desde un principio nos interesa. 2. Aproximación estocástica (A.E.), que es el algoritmo que sirve como marco general de muchos algoritmos, entre ellos Q-learning. Bajo algunas premisas lograremos establecer la convergencia de A.E. 3. Método del descenso del gradiente estocástico, que es la herramienta principal por la cual se puede establecer la convergencia del algoritmo de A.E. ( y de muchos de los algoritmos de Machine Learning ) 4. Reinforcement Learning, que es la rama en la cual se encuentra el algoritmo de Q- learning.MatemáticoPregrado55 hojasapplication/pdfspaUniversidad de los AndesMatemáticasFacultad de CienciasDepartamento de MatemáticasGradiente estocástico y aproximación estocástica aplicados a Q-learningTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesishttp://purl.org/coar/resource_type/c_7a1fhttp://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/TPOptimización matemáticaFunciones convexasMétodos iterativos (Matemáticas)Aproximación estocásticaAprendizaje por refuerzo (Aprendizaje automático)Procesos de MarkovProcesos estocásticosMatemáticas201616131Publicationhttps://scholar.google.es/citations?user=CoIlxH0AAAAJvirtual::16940-10000-0002-5541-0758virtual::16940-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000155861virtual::16940-11e5c3dc6-4d9c-406b-9f99-5c91523b7e49virtual::16940-11e5c3dc6-4d9c-406b-9f99-5c91523b7e49virtual::16940-1THUMBNAIL22979.pdf.jpg22979.pdf.jpgIM Thumbnailimage/jpeg4924https://repositorio.uniandes.edu.co/bitstreams/faf92b47-0871-4308-a4b8-2d8cd8edac43/downloadc273893031a5e1a1e4db8ab9fff6e6c9MD55TEXT22979.pdf.txt22979.pdf.txtExtracted texttext/plain72619https://repositorio.uniandes.edu.co/bitstreams/1d2aa866-724b-4766-9f88-000494fb46a5/download5b576351daaa6cea902579a45dfe11e4MD54ORIGINAL22979.pdfapplication/pdf843026https://repositorio.uniandes.edu.co/bitstreams/1363739d-583e-42d7-966e-172fdfeabf16/download22b9a4c0b9f744f9e9288c8c91ecefe4MD511992/51295oai:repositorio.uniandes.edu.co:1992/512952024-03-13 15:52:10.646http://creativecommons.org/licenses/by-nc-sa/4.0/open.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co