M-Learning: enfoque heurístico para recompensas diferidas en el aprendizaje por refuerzo

El diseño actual de los métodos de aprendizaje por refuerzo requiere grandes recursos computacionales. Algoritmos como Deep Q-Network (DQN) han obtenido resultados sobresalientes en el avance de este campo. Sin embargo, la necesidad de ajustar miles de parámetros y ejecutar millones de episodios de...

Full description

Autores:
Mora Cortés, Marlon Sneider
Perdomo Charry , César Andrey
Perdomo Charry , Oscar Julián
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2025
Institución:
Universidad Distrital Francisco José de Caldas
Repositorio:
RIUD: repositorio U. Distrital
Idioma:
spa
OAI Identifier:
oai:repository.udistrital.edu.co:11349/93453
Acceso en línea:
http://hdl.handle.net/11349/93453
Palabra clave:
Aprendizaje por refuerzo
Dilema exploración-explotación
Q-Learning
Frozen lake
Enfoque heurístico
Ingeniería Electrónica -- Tesis y Disertaciones Académicas
Minería de datos
Aprendizaje por experiencia
Aprendizaje por descubrimiento
Reinforcement learning
Exploration-exploitation dilemma
Q-Learning
Frozen Lake
Heuristic approach
Rights
License
Abierto (Texto Completo)
Description
Summary:El diseño actual de los métodos de aprendizaje por refuerzo requiere grandes recursos computacionales. Algoritmos como Deep Q-Network (DQN) han obtenido resultados sobresalientes en el avance de este campo. Sin embargo, la necesidad de ajustar miles de parámetros y ejecutar millones de episodios de entrenamiento sigue siendo un reto importante. Este documento propone un análisis comparativo entre el algoritmo Q-Learning, que sentó las bases del Deep Q-Learning, y nuestro método propuesto, denominado M-Learning. La comparación se lleva a cabo utilizando Procesos de Decisión de Markov con recompensa retardada como marco general del banco de pruebas. En primer lugar, este documento proporciona una descripción completa de los principales retos relacionados con la implementación de Q-Learning, especialmente en lo que respecta a sus múltiples parámetros. A continuación, se presentan los fundamentos de nuestra heurística propuesta, incluida su formulación, y se describe en detalle el algoritmo. La metodología utilizada para comparar ambos algoritmos consistió en entrenarlos en el entorno de Frozen Lake. Los resultados experimentales, junto con un análisis de las mejores soluciones, demuestran que nuestra propuesta requiere menos episodios y presenta una menor variabilidad en los resultados. En concreto, M-Learning entrena a los agentes un 30,7% más rápido en el entorno determinista y un 61,66% más rápido en el entorno estocástico. Además, consigue una mayor consistencia, reduciendo la desviación estándar de las puntuaciones en un 58,37% y un 49,75% en los entornos determinista y estocástico, respectivamente.