Deep Q-learning

Hemos estudiado e implementado una clase de algoritmos conocidos como deep Q-learning, inspirados en la mezcla entre el aprendizaje reforzado y el aprendizaje profundo. El objetivo principal de estos algoritmos es resolver un problema de decisión de Markov en un espacio de estados muy grande, donde...

Full description

Autores:
Mantilla Calderón, Luis Carlos
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2021
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
eng
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/55337
Acceso en línea:
http://hdl.handle.net/1992/55337
Palabra clave:
Aprendizaje automático (Inteligencia artificial)
Decisiones estadísticas
Procesos de Markov
Aprendizaje por refuerzo (Aprendizaje automático)
Algoritmos
Matemáticas
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-sa/4.0/
id UNIANDES2_6dc034257d87ddb564a3409a8bdde83d
oai_identifier_str oai:repositorio.uniandes.edu.co:1992/55337
network_acronym_str UNIANDES2
network_name_str Séneca: repositorio Uniandes
repository_id_str
dc.title.eng.fl_str_mv Deep Q-learning
title Deep Q-learning
spellingShingle Deep Q-learning
Aprendizaje automático (Inteligencia artificial)
Decisiones estadísticas
Procesos de Markov
Aprendizaje por refuerzo (Aprendizaje automático)
Algoritmos
Matemáticas
title_short Deep Q-learning
title_full Deep Q-learning
title_fullStr Deep Q-learning
title_full_unstemmed Deep Q-learning
title_sort Deep Q-learning
dc.creator.fl_str_mv Mantilla Calderón, Luis Carlos
dc.contributor.advisor.none.fl_str_mv Junca Peláez, Mauricio José
dc.contributor.author.spa.fl_str_mv Mantilla Calderón, Luis Carlos
dc.contributor.jury.spa.fl_str_mv Angel Cárdenas, Jairo Andrés
dc.subject.keyword.none.fl_str_mv Aprendizaje automático (Inteligencia artificial)
Decisiones estadísticas
Procesos de Markov
Aprendizaje por refuerzo (Aprendizaje automático)
Algoritmos
topic Aprendizaje automático (Inteligencia artificial)
Decisiones estadísticas
Procesos de Markov
Aprendizaje por refuerzo (Aprendizaje automático)
Algoritmos
Matemáticas
dc.subject.themes.none.fl_str_mv Matemáticas
description Hemos estudiado e implementado una clase de algoritmos conocidos como deep Q-learning, inspirados en la mezcla entre el aprendizaje reforzado y el aprendizaje profundo. El objetivo principal de estos algoritmos es resolver un problema de decisión de Markov en un espacio de estados muy grande, donde los algoritmos clásicos de aprendizaje por refuerzo no tienen éxito. Primero, presentamos las ideas básicas de programación dinámica y aprendizaje reforzado y algunos ejemplos de PDMs que se resuelven utilizando algoritmos model-free. Luego, presentamos y motivamos las redes neuronales. A continuación, discutimos los diferentes optimizadores, funciones de costo y arquitecturas que se suelen elegir en deep learning. Posteriormente, mezclamos estos dos conceptos y mencionamos cómo los investigadores han abordado los principales problemas que surgen al fusionar estas dos áreas, como el entrenamiento de una red neuronal con datos correlacionados. Con la ayuda de varias bibliotecas, como Gym, Tensorflow 2.0 y Keras-rl2, implementamos varios agentes DQN. Comenzamos entrenando a un agente DQN simple en un problema de control óptimo llamado Acrobot, donde la función Q se aproxima usando una red neuronal con dos capas ocultas de 32 nodos. Después de esto, implementamos tres variantes del agente DQN para tres entornos Atari diferentes. Estos nueve agentes diferentes fueron entrenados con 10 millones de pasos usando la misma arquitectura para el agente DQN. Finalmente, decidimos entrenar más a un agente de DQN, aquel usado para el juego de Breakout, y lo entrenamos por otros 5 millones de pasos. Después de hacer esto, los pesos del agente cambiaron de mínimo local, lo que le dio al agente una recompensa mucho más alta que antes. Además, los vectores de características de la última capa oculta se estudiaron utilizando un mapa tSNE en diferentes etapas de entrenamiento del entrenamiento para visualizar la representación de múltiples estados a lo largo del proceso de aprendizaje.
publishDate 2021
dc.date.issued.none.fl_str_mv 2021
dc.date.accessioned.none.fl_str_mv 2022-02-22T19:56:35Z
dc.date.available.none.fl_str_mv 2022-02-22T19:56:35Z
dc.type.spa.fl_str_mv Trabajo de grado - Pregrado
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TP
format http://purl.org/coar/resource_type/c_7a1f
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/1992/55337
dc.identifier.pdf.spa.fl_str_mv 25413.pdf
dc.identifier.instname.spa.fl_str_mv instname:Universidad de los Andes
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional Séneca
dc.identifier.repourl.spa.fl_str_mv repourl:https://repositorio.uniandes.edu.co/
url http://hdl.handle.net/1992/55337
identifier_str_mv 25413.pdf
instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
repourl:https://repositorio.uniandes.edu.co/
dc.language.iso.spa.fl_str_mv eng
language eng
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.spa.fl_str_mv 49 páginas
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.spa.fl_str_mv Universidad de los Andes
dc.publisher.program.spa.fl_str_mv Matemáticas
dc.publisher.faculty.spa.fl_str_mv Facultad de Ciencias
dc.publisher.department.spa.fl_str_mv Departamento de Matemáticas
institution Universidad de los Andes
bitstream.url.fl_str_mv https://repositorio.uniandes.edu.co/bitstreams/e07ba7b4-2868-4357-af4f-5c73abbf443c/download
https://repositorio.uniandes.edu.co/bitstreams/805a1af7-8021-4014-953c-c90bfa9f3993/download
https://repositorio.uniandes.edu.co/bitstreams/14089eff-4d35-45c7-b8cd-d08cd6ec7fa2/download
bitstream.checksum.fl_str_mv d10dbf634a01c7e099d45e39c7e34e58
2c0694a2c6264cada6199a4286b4258e
1adaddc8ad156a40b0c7a6611a6e36a1
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio institucional Séneca
repository.mail.fl_str_mv adminrepositorio@uniandes.edu.co
_version_ 1812133964432801792
spelling Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.http://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Junca Peláez, Mauricio Josévirtual::10491-1Mantilla Calderón, Luis Carlos2284c7eb-f068-4318-82fa-fdd7efb9ce1f500Angel Cárdenas, Jairo Andrés2022-02-22T19:56:35Z2022-02-22T19:56:35Z2021http://hdl.handle.net/1992/5533725413.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/Hemos estudiado e implementado una clase de algoritmos conocidos como deep Q-learning, inspirados en la mezcla entre el aprendizaje reforzado y el aprendizaje profundo. El objetivo principal de estos algoritmos es resolver un problema de decisión de Markov en un espacio de estados muy grande, donde los algoritmos clásicos de aprendizaje por refuerzo no tienen éxito. Primero, presentamos las ideas básicas de programación dinámica y aprendizaje reforzado y algunos ejemplos de PDMs que se resuelven utilizando algoritmos model-free. Luego, presentamos y motivamos las redes neuronales. A continuación, discutimos los diferentes optimizadores, funciones de costo y arquitecturas que se suelen elegir en deep learning. Posteriormente, mezclamos estos dos conceptos y mencionamos cómo los investigadores han abordado los principales problemas que surgen al fusionar estas dos áreas, como el entrenamiento de una red neuronal con datos correlacionados. Con la ayuda de varias bibliotecas, como Gym, Tensorflow 2.0 y Keras-rl2, implementamos varios agentes DQN. Comenzamos entrenando a un agente DQN simple en un problema de control óptimo llamado Acrobot, donde la función Q se aproxima usando una red neuronal con dos capas ocultas de 32 nodos. Después de esto, implementamos tres variantes del agente DQN para tres entornos Atari diferentes. Estos nueve agentes diferentes fueron entrenados con 10 millones de pasos usando la misma arquitectura para el agente DQN. Finalmente, decidimos entrenar más a un agente de DQN, aquel usado para el juego de Breakout, y lo entrenamos por otros 5 millones de pasos. Después de hacer esto, los pesos del agente cambiaron de mínimo local, lo que le dio al agente una recompensa mucho más alta que antes. Además, los vectores de características de la última capa oculta se estudiaron utilizando un mapa tSNE en diferentes etapas de entrenamiento del entrenamiento para visualizar la representación de múltiples estados a lo largo del proceso de aprendizaje.We have studied and implemented a class of algorithms known as deep Q-learning, inspired by the mixture between reinforcement learning and deep learning. The main goal of these algorithms is to solve a discounted Markov decision problem in a high-dimensional state space, where classical reinforcement learning algorithms cannot succeed. First, we introduce the basic ideas of dynamic programming and reinforcement learning and some examples of MDPs that are solved using model-free algorithms. Then, we present and motivate neural networks. Next, we discuss and study the different optimizers, loss functions, and architectures that can be chosen to fit a given data set. Ultimately, we mix these two concepts together and mention how researchers have dealt with the main problems that arise when merging these two areas, such as training a neural network with correlated data. Using the aid of multiple libraries, such as Gym, Tensorflow 2.0, and Keras-rl2, we implemented numerous DQN agents. We began by training a simple DQN agent on an optimal control problem called Acrobot, where the Q function is approximated using a neural network with two 32-node hidden layers. After this, we implemented three variants of the DQN agent (DQN, double DQN (DDQN), and dueling DQN) for three different Atari environments: Pong, SpaceInvaders, and Breakout. These nine different agents were trained for 10 million steps using the same architecture for the DQN agent. Finally, we decided to take one DQN agent further, the DQN agent for the Atari breakout game and trained it for another 5 million steps. After doing this, the agent's weights changed from a local minimum to a lower local minimum, giving the agent a much higher reward than before. In addition, the feature vectors of the last hidden layer of several states were plotted using a tSNE map on different training stages of the training to visualize the representation of multiple states throughout the learning process.MatemáticoPregrado49 páginasapplication/pdfengUniversidad de los AndesMatemáticasFacultad de CienciasDepartamento de MatemáticasDeep Q-learningTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_7a1fTexthttp://purl.org/redcol/resource_type/TPAprendizaje automático (Inteligencia artificial)Decisiones estadísticasProcesos de MarkovAprendizaje por refuerzo (Aprendizaje automático)AlgoritmosMatemáticas201631487Publicationhttps://scholar.google.es/citations?user=CoIlxH0AAAAJvirtual::10491-10000-0002-5541-0758virtual::10491-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000155861virtual::10491-11e5c3dc6-4d9c-406b-9f99-5c91523b7e49virtual::10491-11e5c3dc6-4d9c-406b-9f99-5c91523b7e49virtual::10491-1TEXT25413.pdf.txt25413.pdf.txtExtracted texttext/plain92379https://repositorio.uniandes.edu.co/bitstreams/e07ba7b4-2868-4357-af4f-5c73abbf443c/downloadd10dbf634a01c7e099d45e39c7e34e58MD52ORIGINAL25413.pdfapplication/pdf13191580https://repositorio.uniandes.edu.co/bitstreams/805a1af7-8021-4014-953c-c90bfa9f3993/download2c0694a2c6264cada6199a4286b4258eMD51THUMBNAIL25413.pdf.jpg25413.pdf.jpgIM Thumbnailimage/jpeg5570https://repositorio.uniandes.edu.co/bitstreams/14089eff-4d35-45c7-b8cd-d08cd6ec7fa2/download1adaddc8ad156a40b0c7a6611a6e36a1MD531992/55337oai:repositorio.uniandes.edu.co:1992/553372024-03-13 14:11:57.106http://creativecommons.org/licenses/by-nc-sa/4.0/open.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co