Evaluación de políticas bajo ruido Markoviano mediante el algoritmo de Online Bootstrap Inference
Este trabajo estudia la evaluación de políticas en Aprendizaje Reforzado (RL) en escenarios de dimensión grande o con incertidumbre. En este caso, el valor de la política que se quiere evaluar se aproxima de manera lineal, y se desarrolla usando Aproximación Lineal Estocástica (LSA) con ruido Markov...
- Autores:
-
Patrón Piñerez, Ana María
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2023
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/68318
- Acceso en línea:
- http://hdl.handle.net/1992/68318
- Palabra clave:
- Aprendizaje Reforzado
Aproximación Lineal Estocástica
Diferencias Temporales
Evaluación de políticas
Ruido Markoviano
Matemáticas
- Rights
- openAccess
- License
- Attribution-NoDerivatives 4.0 Internacional
Summary: | Este trabajo estudia la evaluación de políticas en Aprendizaje Reforzado (RL) en escenarios de dimensión grande o con incertidumbre. En este caso, el valor de la política que se quiere evaluar se aproxima de manera lineal, y se desarrolla usando Aproximación Lineal Estocástica (LSA) con ruido Markoviano. Los métodos clásicos, Diferencias Temporales y Gradientes de Diferencias Temporales, son ineficientes al estimar la función valor. Por eso, se estudia la alternativa que ofrece el algoritmo de Online Bootstrap Inference, el cual promete ser una mejora a los métodos existentes. |
---|