Deep Q-learning
Hemos estudiado e implementado una clase de algoritmos conocidos como deep Q-learning, inspirados en la mezcla entre el aprendizaje reforzado y el aprendizaje profundo. El objetivo principal de estos algoritmos es resolver un problema de decisión de Markov en un espacio de estados muy grande, donde...
- Autores:
-
Mantilla Calderón, Luis Carlos
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2021
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- eng
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/55337
- Acceso en línea:
- http://hdl.handle.net/1992/55337
- Palabra clave:
- Aprendizaje automático (Inteligencia artificial)
Decisiones estadísticas
Procesos de Markov
Aprendizaje por refuerzo (Aprendizaje automático)
Algoritmos
Matemáticas
- Rights
- openAccess
- License
- http://creativecommons.org/licenses/by-nc-sa/4.0/
id |
UNIANDES2_6dc034257d87ddb564a3409a8bdde83d |
---|---|
oai_identifier_str |
oai:repositorio.uniandes.edu.co:1992/55337 |
network_acronym_str |
UNIANDES2 |
network_name_str |
Séneca: repositorio Uniandes |
repository_id_str |
|
dc.title.eng.fl_str_mv |
Deep Q-learning |
title |
Deep Q-learning |
spellingShingle |
Deep Q-learning Aprendizaje automático (Inteligencia artificial) Decisiones estadísticas Procesos de Markov Aprendizaje por refuerzo (Aprendizaje automático) Algoritmos Matemáticas |
title_short |
Deep Q-learning |
title_full |
Deep Q-learning |
title_fullStr |
Deep Q-learning |
title_full_unstemmed |
Deep Q-learning |
title_sort |
Deep Q-learning |
dc.creator.fl_str_mv |
Mantilla Calderón, Luis Carlos |
dc.contributor.advisor.none.fl_str_mv |
Junca Peláez, Mauricio José |
dc.contributor.author.spa.fl_str_mv |
Mantilla Calderón, Luis Carlos |
dc.contributor.jury.spa.fl_str_mv |
Angel Cárdenas, Jairo Andrés |
dc.subject.keyword.none.fl_str_mv |
Aprendizaje automático (Inteligencia artificial) Decisiones estadísticas Procesos de Markov Aprendizaje por refuerzo (Aprendizaje automático) Algoritmos |
topic |
Aprendizaje automático (Inteligencia artificial) Decisiones estadísticas Procesos de Markov Aprendizaje por refuerzo (Aprendizaje automático) Algoritmos Matemáticas |
dc.subject.themes.none.fl_str_mv |
Matemáticas |
description |
Hemos estudiado e implementado una clase de algoritmos conocidos como deep Q-learning, inspirados en la mezcla entre el aprendizaje reforzado y el aprendizaje profundo. El objetivo principal de estos algoritmos es resolver un problema de decisión de Markov en un espacio de estados muy grande, donde los algoritmos clásicos de aprendizaje por refuerzo no tienen éxito. Primero, presentamos las ideas básicas de programación dinámica y aprendizaje reforzado y algunos ejemplos de PDMs que se resuelven utilizando algoritmos model-free. Luego, presentamos y motivamos las redes neuronales. A continuación, discutimos los diferentes optimizadores, funciones de costo y arquitecturas que se suelen elegir en deep learning. Posteriormente, mezclamos estos dos conceptos y mencionamos cómo los investigadores han abordado los principales problemas que surgen al fusionar estas dos áreas, como el entrenamiento de una red neuronal con datos correlacionados. Con la ayuda de varias bibliotecas, como Gym, Tensorflow 2.0 y Keras-rl2, implementamos varios agentes DQN. Comenzamos entrenando a un agente DQN simple en un problema de control óptimo llamado Acrobot, donde la función Q se aproxima usando una red neuronal con dos capas ocultas de 32 nodos. Después de esto, implementamos tres variantes del agente DQN para tres entornos Atari diferentes. Estos nueve agentes diferentes fueron entrenados con 10 millones de pasos usando la misma arquitectura para el agente DQN. Finalmente, decidimos entrenar más a un agente de DQN, aquel usado para el juego de Breakout, y lo entrenamos por otros 5 millones de pasos. Después de hacer esto, los pesos del agente cambiaron de mínimo local, lo que le dio al agente una recompensa mucho más alta que antes. Además, los vectores de características de la última capa oculta se estudiaron utilizando un mapa tSNE en diferentes etapas de entrenamiento del entrenamiento para visualizar la representación de múltiples estados a lo largo del proceso de aprendizaje. |
publishDate |
2021 |
dc.date.issued.none.fl_str_mv |
2021 |
dc.date.accessioned.none.fl_str_mv |
2022-02-22T19:56:35Z |
dc.date.available.none.fl_str_mv |
2022-02-22T19:56:35Z |
dc.type.spa.fl_str_mv |
Trabajo de grado - Pregrado |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
dc.type.version.spa.fl_str_mv |
info:eu-repo/semantics/acceptedVersion |
dc.type.coar.spa.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/TP |
format |
http://purl.org/coar/resource_type/c_7a1f |
status_str |
acceptedVersion |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/1992/55337 |
dc.identifier.pdf.spa.fl_str_mv |
25413.pdf |
dc.identifier.instname.spa.fl_str_mv |
instname:Universidad de los Andes |
dc.identifier.reponame.spa.fl_str_mv |
reponame:Repositorio Institucional Séneca |
dc.identifier.repourl.spa.fl_str_mv |
repourl:https://repositorio.uniandes.edu.co/ |
url |
http://hdl.handle.net/1992/55337 |
identifier_str_mv |
25413.pdf instname:Universidad de los Andes reponame:Repositorio Institucional Séneca repourl:https://repositorio.uniandes.edu.co/ |
dc.language.iso.spa.fl_str_mv |
eng |
language |
eng |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.coar.spa.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.extent.spa.fl_str_mv |
49 páginas |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
dc.publisher.spa.fl_str_mv |
Universidad de los Andes |
dc.publisher.program.spa.fl_str_mv |
Matemáticas |
dc.publisher.faculty.spa.fl_str_mv |
Facultad de Ciencias |
dc.publisher.department.spa.fl_str_mv |
Departamento de Matemáticas |
institution |
Universidad de los Andes |
bitstream.url.fl_str_mv |
https://repositorio.uniandes.edu.co/bitstreams/e07ba7b4-2868-4357-af4f-5c73abbf443c/download https://repositorio.uniandes.edu.co/bitstreams/805a1af7-8021-4014-953c-c90bfa9f3993/download https://repositorio.uniandes.edu.co/bitstreams/14089eff-4d35-45c7-b8cd-d08cd6ec7fa2/download |
bitstream.checksum.fl_str_mv |
d10dbf634a01c7e099d45e39c7e34e58 2c0694a2c6264cada6199a4286b4258e 1adaddc8ad156a40b0c7a6611a6e36a1 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio institucional Séneca |
repository.mail.fl_str_mv |
adminrepositorio@uniandes.edu.co |
_version_ |
1812133964432801792 |
spelling |
Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.http://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Junca Peláez, Mauricio Josévirtual::10491-1Mantilla Calderón, Luis Carlos2284c7eb-f068-4318-82fa-fdd7efb9ce1f500Angel Cárdenas, Jairo Andrés2022-02-22T19:56:35Z2022-02-22T19:56:35Z2021http://hdl.handle.net/1992/5533725413.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/Hemos estudiado e implementado una clase de algoritmos conocidos como deep Q-learning, inspirados en la mezcla entre el aprendizaje reforzado y el aprendizaje profundo. El objetivo principal de estos algoritmos es resolver un problema de decisión de Markov en un espacio de estados muy grande, donde los algoritmos clásicos de aprendizaje por refuerzo no tienen éxito. Primero, presentamos las ideas básicas de programación dinámica y aprendizaje reforzado y algunos ejemplos de PDMs que se resuelven utilizando algoritmos model-free. Luego, presentamos y motivamos las redes neuronales. A continuación, discutimos los diferentes optimizadores, funciones de costo y arquitecturas que se suelen elegir en deep learning. Posteriormente, mezclamos estos dos conceptos y mencionamos cómo los investigadores han abordado los principales problemas que surgen al fusionar estas dos áreas, como el entrenamiento de una red neuronal con datos correlacionados. Con la ayuda de varias bibliotecas, como Gym, Tensorflow 2.0 y Keras-rl2, implementamos varios agentes DQN. Comenzamos entrenando a un agente DQN simple en un problema de control óptimo llamado Acrobot, donde la función Q se aproxima usando una red neuronal con dos capas ocultas de 32 nodos. Después de esto, implementamos tres variantes del agente DQN para tres entornos Atari diferentes. Estos nueve agentes diferentes fueron entrenados con 10 millones de pasos usando la misma arquitectura para el agente DQN. Finalmente, decidimos entrenar más a un agente de DQN, aquel usado para el juego de Breakout, y lo entrenamos por otros 5 millones de pasos. Después de hacer esto, los pesos del agente cambiaron de mínimo local, lo que le dio al agente una recompensa mucho más alta que antes. Además, los vectores de características de la última capa oculta se estudiaron utilizando un mapa tSNE en diferentes etapas de entrenamiento del entrenamiento para visualizar la representación de múltiples estados a lo largo del proceso de aprendizaje.We have studied and implemented a class of algorithms known as deep Q-learning, inspired by the mixture between reinforcement learning and deep learning. The main goal of these algorithms is to solve a discounted Markov decision problem in a high-dimensional state space, where classical reinforcement learning algorithms cannot succeed. First, we introduce the basic ideas of dynamic programming and reinforcement learning and some examples of MDPs that are solved using model-free algorithms. Then, we present and motivate neural networks. Next, we discuss and study the different optimizers, loss functions, and architectures that can be chosen to fit a given data set. Ultimately, we mix these two concepts together and mention how researchers have dealt with the main problems that arise when merging these two areas, such as training a neural network with correlated data. Using the aid of multiple libraries, such as Gym, Tensorflow 2.0, and Keras-rl2, we implemented numerous DQN agents. We began by training a simple DQN agent on an optimal control problem called Acrobot, where the Q function is approximated using a neural network with two 32-node hidden layers. After this, we implemented three variants of the DQN agent (DQN, double DQN (DDQN), and dueling DQN) for three different Atari environments: Pong, SpaceInvaders, and Breakout. These nine different agents were trained for 10 million steps using the same architecture for the DQN agent. Finally, we decided to take one DQN agent further, the DQN agent for the Atari breakout game and trained it for another 5 million steps. After doing this, the agent's weights changed from a local minimum to a lower local minimum, giving the agent a much higher reward than before. In addition, the feature vectors of the last hidden layer of several states were plotted using a tSNE map on different training stages of the training to visualize the representation of multiple states throughout the learning process.MatemáticoPregrado49 páginasapplication/pdfengUniversidad de los AndesMatemáticasFacultad de CienciasDepartamento de MatemáticasDeep Q-learningTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_7a1fTexthttp://purl.org/redcol/resource_type/TPAprendizaje automático (Inteligencia artificial)Decisiones estadísticasProcesos de MarkovAprendizaje por refuerzo (Aprendizaje automático)AlgoritmosMatemáticas201631487Publicationhttps://scholar.google.es/citations?user=CoIlxH0AAAAJvirtual::10491-10000-0002-5541-0758virtual::10491-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000155861virtual::10491-11e5c3dc6-4d9c-406b-9f99-5c91523b7e49virtual::10491-11e5c3dc6-4d9c-406b-9f99-5c91523b7e49virtual::10491-1TEXT25413.pdf.txt25413.pdf.txtExtracted texttext/plain92379https://repositorio.uniandes.edu.co/bitstreams/e07ba7b4-2868-4357-af4f-5c73abbf443c/downloadd10dbf634a01c7e099d45e39c7e34e58MD52ORIGINAL25413.pdfapplication/pdf13191580https://repositorio.uniandes.edu.co/bitstreams/805a1af7-8021-4014-953c-c90bfa9f3993/download2c0694a2c6264cada6199a4286b4258eMD51THUMBNAIL25413.pdf.jpg25413.pdf.jpgIM Thumbnailimage/jpeg5570https://repositorio.uniandes.edu.co/bitstreams/14089eff-4d35-45c7-b8cd-d08cd6ec7fa2/download1adaddc8ad156a40b0c7a6611a6e36a1MD531992/55337oai:repositorio.uniandes.edu.co:1992/553372024-03-13 14:11:57.106http://creativecommons.org/licenses/by-nc-sa/4.0/open.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co |