Gradiente estocástico y aproximación estocástica aplicados a Q-learning
The project is motivated to demonstrate the convergence of Q-learning. This is an algorithm applied to finite Markov decision processes in discrete time, where there is not enough information. Thus, what the algorithm seeks is to solve the optimality equations (or Bellman's equations). With thi...
- Autores:
-
ñungo Manrique, José Sebastián
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2020
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/51295
- Acceso en línea:
- http://hdl.handle.net/1992/51295
- Palabra clave:
- Optimización matemática
Funciones convexas
Métodos iterativos (Matemáticas)
Aproximación estocástica
Aprendizaje por refuerzo (Aprendizaje automático)
Procesos de Markov
Procesos estocásticos
Matemáticas
- Rights
- openAccess
- License
- http://creativecommons.org/licenses/by-nc-sa/4.0/