Evaluación de políticas bajo ruido Markoviano mediante el algoritmo de Online Bootstrap Inference

Este trabajo estudia la evaluación de políticas en Aprendizaje Reforzado (RL) en escenarios de dimensión grande o con incertidumbre. En este caso, el valor de la política que se quiere evaluar se aproxima de manera lineal, y se desarrolla usando Aproximación Lineal Estocástica (LSA) con ruido Markov...

Full description

Autores:
Patrón Piñerez, Ana María
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2023
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/68318
Acceso en línea:
http://hdl.handle.net/1992/68318
Palabra clave:
Aprendizaje Reforzado
Aproximación Lineal Estocástica
Diferencias Temporales
Evaluación de políticas
Ruido Markoviano
Matemáticas
Rights
openAccess
License
Attribution-NoDerivatives 4.0 Internacional
Description
Summary:Este trabajo estudia la evaluación de políticas en Aprendizaje Reforzado (RL) en escenarios de dimensión grande o con incertidumbre. En este caso, el valor de la política que se quiere evaluar se aproxima de manera lineal, y se desarrolla usando Aproximación Lineal Estocástica (LSA) con ruido Markoviano. Los métodos clásicos, Diferencias Temporales y Gradientes de Diferencias Temporales, son ineficientes al estimar la función valor. Por eso, se estudia la alternativa que ofrece el algoritmo de Online Bootstrap Inference, el cual promete ser una mejora a los métodos existentes.