Discrete state-action representations for hierarchical reinforcement learning

Cada vez hay mayor evidencia de que los métodos de aprendizaje por refuerzo jerárquico proveen mejores leyes de control que métodos estándar de aprendizaje por refuerzo, y, aún más, que son necesarios para resolver problemas de control complejos para los cuáles es imperativo explorar eficientemente....

Full description

Autores:
Gómez Noriega, Diego Fernando
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2019
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
eng
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/45788
Acceso en línea:
http://hdl.handle.net/1992/45788
Palabra clave:
Aprendizaje por refuerzo (Aprendizaje automático)
Ingeniería
Rights
openAccess
License
https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
id UNIANDES2_2ddfb119facec9df3db0dfef75e80309
oai_identifier_str oai:repositorio.uniandes.edu.co:1992/45788
network_acronym_str UNIANDES2
network_name_str Séneca: repositorio Uniandes
repository_id_str
dc.title.es_CO.fl_str_mv Discrete state-action representations for hierarchical reinforcement learning
title Discrete state-action representations for hierarchical reinforcement learning
spellingShingle Discrete state-action representations for hierarchical reinforcement learning
Aprendizaje por refuerzo (Aprendizaje automático)
Ingeniería
title_short Discrete state-action representations for hierarchical reinforcement learning
title_full Discrete state-action representations for hierarchical reinforcement learning
title_fullStr Discrete state-action representations for hierarchical reinforcement learning
title_full_unstemmed Discrete state-action representations for hierarchical reinforcement learning
title_sort Discrete state-action representations for hierarchical reinforcement learning
dc.creator.fl_str_mv Gómez Noriega, Diego Fernando
dc.contributor.advisor.none.fl_str_mv Quijano Silva, Nicanor
dc.contributor.author.none.fl_str_mv Gómez Noriega, Diego Fernando
dc.contributor.jury.none.fl_str_mv Giraldo Trujillo, Luis Felipe
dc.subject.armarc.es_CO.fl_str_mv Aprendizaje por refuerzo (Aprendizaje automático)
topic Aprendizaje por refuerzo (Aprendizaje automático)
Ingeniería
dc.subject.themes.none.fl_str_mv Ingeniería
description Cada vez hay mayor evidencia de que los métodos de aprendizaje por refuerzo jerárquico proveen mejores leyes de control que métodos estándar de aprendizaje por refuerzo, y, aún más, que son necesarios para resolver problemas de control complejos para los cuáles es imperativo explorar eficientemente. En este trabajos proponemos un nuevo método de aprendizaje por refuerzo jerárquico inspirado en el modo en que los humanos, y probablemente la mayoría de animales, parecen resolver tareas complejas: generando representaciones mentales discretas que permiten planear y tomar decisiones de manera eficiente. Más específicamente, nuestra aproximación consiste en el uso de modelos probabilísticos generativos como abstracciones discretas del espacio de estados, un proceso de inferencia de estos modelos y un método de decisión de alto nivel que mapea los modelo escogidos a acciones de alto nivel. Esta acción de alto nivel funciona como un comando hacia un controlador de bajo nivel que también usa la información sensorial completa del estado para realizar una acción. Implementamos nuestro método en dos ambientes continuos de la librería OpenAI Gym y lo comparamos con dos métodos no jerárquicos del estado del arte. Nuestros resultados indican que el uso del método jerárquico propuesto proporciona una ventaja significativa en la eficiencia de aprendizaje y permite capturar representaciones útiles para hacer control.
publishDate 2019
dc.date.issued.none.fl_str_mv 2019
dc.date.accessioned.none.fl_str_mv 2020-09-03T16:14:14Z
dc.date.available.none.fl_str_mv 2020-09-03T16:14:14Z
dc.type.spa.fl_str_mv Trabajo de grado - Pregrado
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TP
format http://purl.org/coar/resource_type/c_7a1f
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/1992/45788
dc.identifier.pdf.none.fl_str_mv u828084.pdf
dc.identifier.instname.spa.fl_str_mv instname:Universidad de los Andes
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional Séneca
dc.identifier.repourl.spa.fl_str_mv repourl:https://repositorio.uniandes.edu.co/
url http://hdl.handle.net/1992/45788
identifier_str_mv u828084.pdf
instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
repourl:https://repositorio.uniandes.edu.co/
dc.language.iso.es_CO.fl_str_mv eng
language eng
dc.rights.uri.*.fl_str_mv https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.es_CO.fl_str_mv 45 hojas
dc.format.mimetype.es_CO.fl_str_mv application/pdf
dc.publisher.es_CO.fl_str_mv Universidad de los Andes
dc.publisher.program.es_CO.fl_str_mv Ingeniería Electrónica
dc.publisher.faculty.es_CO.fl_str_mv Facultad de Ingeniería
dc.publisher.department.es_CO.fl_str_mv Departamento de Ingeniería Eléctrica y Electrónica
dc.source.es_CO.fl_str_mv instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
instname_str Universidad de los Andes
institution Universidad de los Andes
reponame_str Repositorio Institucional Séneca
collection Repositorio Institucional Séneca
bitstream.url.fl_str_mv https://repositorio.uniandes.edu.co/bitstreams/636d9538-e7ba-44c4-a26c-dc0f70c168eb/download
https://repositorio.uniandes.edu.co/bitstreams/a88f7d1a-3713-4eb0-9363-0d67b54fa919/download
https://repositorio.uniandes.edu.co/bitstreams/6b506493-4bff-49e9-a703-65abc33c586d/download
bitstream.checksum.fl_str_mv fd3287903e24a8f628fd5403b12e5b15
1c8119c895aa5b7b045ac14a929c74a7
7809aa73a67fcdcc318fb0f95d972d57
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio institucional Séneca
repository.mail.fl_str_mv adminrepositorio@uniandes.edu.co
_version_ 1812133920471252992
spelling Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdfinfo:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Quijano Silva, Nicanorvirtual::7745-1Gómez Noriega, Diego Fernando33a0faec-b322-47a2-b9ac-a51472e47093600Giraldo Trujillo, Luis Felipe2020-09-03T16:14:14Z2020-09-03T16:14:14Z2019http://hdl.handle.net/1992/45788u828084.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/Cada vez hay mayor evidencia de que los métodos de aprendizaje por refuerzo jerárquico proveen mejores leyes de control que métodos estándar de aprendizaje por refuerzo, y, aún más, que son necesarios para resolver problemas de control complejos para los cuáles es imperativo explorar eficientemente. En este trabajos proponemos un nuevo método de aprendizaje por refuerzo jerárquico inspirado en el modo en que los humanos, y probablemente la mayoría de animales, parecen resolver tareas complejas: generando representaciones mentales discretas que permiten planear y tomar decisiones de manera eficiente. Más específicamente, nuestra aproximación consiste en el uso de modelos probabilísticos generativos como abstracciones discretas del espacio de estados, un proceso de inferencia de estos modelos y un método de decisión de alto nivel que mapea los modelo escogidos a acciones de alto nivel. Esta acción de alto nivel funciona como un comando hacia un controlador de bajo nivel que también usa la información sensorial completa del estado para realizar una acción. Implementamos nuestro método en dos ambientes continuos de la librería OpenAI Gym y lo comparamos con dos métodos no jerárquicos del estado del arte. Nuestros resultados indican que el uso del método jerárquico propuesto proporciona una ventaja significativa en la eficiencia de aprendizaje y permite capturar representaciones útiles para hacer control.There is increasing evidence that hierarchical reinforcement learning methods provide better control laws than standard reinforcement learning methods, and even more so that it is necessary to solve complex control tasks for which efficient exploration is imperative. We propose a new hierarchical reinforcement learning method inspired in the way humans, and probably most animals, seem to execute complex tasks: by generating discrete mental representations that allow for efficient planning and decision taking. More specifically, our approach consists in the use of probabilistic generative models as discrete abstractions of the state space, an inference process of this models, and a high-level decision method that maps the chosen models to high-level actions. The high-level action works as command to a low-level controller that also uses the full sensory information of the state to take an action. We implemented our method on two continuous environments of the OpenAI Gym benchmark suite and compared it with two non-hierarchical state-of-the-art methods. Our results indicate that using the proposed hierarchical method provides a significant advantage in learning efficiency and allows capturing useful representations for control.Ingeniero ElectrónicoPregrado45 hojasapplication/pdfengUniversidad de los AndesIngeniería ElectrónicaFacultad de IngenieríaDepartamento de Ingeniería Eléctrica y Electrónicainstname:Universidad de los Andesreponame:Repositorio Institucional SénecaDiscrete state-action representations for hierarchical reinforcement learningTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesishttp://purl.org/coar/resource_type/c_7a1fhttp://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/TPAprendizaje por refuerzo (Aprendizaje automático)IngenieríaPublicationhttps://scholar.google.es/citations?user=xu0jdYAAAAAJvirtual::7745-10000-0002-8688-3195virtual::7745-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000849669virtual::7745-1698e35fc-6e9e-4c84-8960-ae30da9bc64avirtual::7745-1698e35fc-6e9e-4c84-8960-ae30da9bc64avirtual::7745-1ORIGINALu828084.pdfapplication/pdf3651144https://repositorio.uniandes.edu.co/bitstreams/636d9538-e7ba-44c4-a26c-dc0f70c168eb/downloadfd3287903e24a8f628fd5403b12e5b15MD51THUMBNAILu828084.pdf.jpgu828084.pdf.jpgIM Thumbnailimage/jpeg7959https://repositorio.uniandes.edu.co/bitstreams/a88f7d1a-3713-4eb0-9363-0d67b54fa919/download1c8119c895aa5b7b045ac14a929c74a7MD55TEXTu828084.pdf.txtu828084.pdf.txtExtracted texttext/plain63218https://repositorio.uniandes.edu.co/bitstreams/6b506493-4bff-49e9-a703-65abc33c586d/download7809aa73a67fcdcc318fb0f95d972d57MD541992/45788oai:repositorio.uniandes.edu.co:1992/457882024-03-13 13:30:29.736https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdfopen.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co