Discrete state-action representations for hierarchical reinforcement learning
Cada vez hay mayor evidencia de que los métodos de aprendizaje por refuerzo jerárquico proveen mejores leyes de control que métodos estándar de aprendizaje por refuerzo, y, aún más, que son necesarios para resolver problemas de control complejos para los cuáles es imperativo explorar eficientemente....
- Autores:
-
Gómez Noriega, Diego Fernando
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2019
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- eng
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/45788
- Acceso en línea:
- http://hdl.handle.net/1992/45788
- Palabra clave:
- Aprendizaje por refuerzo (Aprendizaje automático)
Ingeniería
- Rights
- openAccess
- License
- https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
id |
UNIANDES2_2ddfb119facec9df3db0dfef75e80309 |
---|---|
oai_identifier_str |
oai:repositorio.uniandes.edu.co:1992/45788 |
network_acronym_str |
UNIANDES2 |
network_name_str |
Séneca: repositorio Uniandes |
repository_id_str |
|
dc.title.es_CO.fl_str_mv |
Discrete state-action representations for hierarchical reinforcement learning |
title |
Discrete state-action representations for hierarchical reinforcement learning |
spellingShingle |
Discrete state-action representations for hierarchical reinforcement learning Aprendizaje por refuerzo (Aprendizaje automático) Ingeniería |
title_short |
Discrete state-action representations for hierarchical reinforcement learning |
title_full |
Discrete state-action representations for hierarchical reinforcement learning |
title_fullStr |
Discrete state-action representations for hierarchical reinforcement learning |
title_full_unstemmed |
Discrete state-action representations for hierarchical reinforcement learning |
title_sort |
Discrete state-action representations for hierarchical reinforcement learning |
dc.creator.fl_str_mv |
Gómez Noriega, Diego Fernando |
dc.contributor.advisor.none.fl_str_mv |
Quijano Silva, Nicanor |
dc.contributor.author.none.fl_str_mv |
Gómez Noriega, Diego Fernando |
dc.contributor.jury.none.fl_str_mv |
Giraldo Trujillo, Luis Felipe |
dc.subject.armarc.es_CO.fl_str_mv |
Aprendizaje por refuerzo (Aprendizaje automático) |
topic |
Aprendizaje por refuerzo (Aprendizaje automático) Ingeniería |
dc.subject.themes.none.fl_str_mv |
Ingeniería |
description |
Cada vez hay mayor evidencia de que los métodos de aprendizaje por refuerzo jerárquico proveen mejores leyes de control que métodos estándar de aprendizaje por refuerzo, y, aún más, que son necesarios para resolver problemas de control complejos para los cuáles es imperativo explorar eficientemente. En este trabajos proponemos un nuevo método de aprendizaje por refuerzo jerárquico inspirado en el modo en que los humanos, y probablemente la mayoría de animales, parecen resolver tareas complejas: generando representaciones mentales discretas que permiten planear y tomar decisiones de manera eficiente. Más específicamente, nuestra aproximación consiste en el uso de modelos probabilísticos generativos como abstracciones discretas del espacio de estados, un proceso de inferencia de estos modelos y un método de decisión de alto nivel que mapea los modelo escogidos a acciones de alto nivel. Esta acción de alto nivel funciona como un comando hacia un controlador de bajo nivel que también usa la información sensorial completa del estado para realizar una acción. Implementamos nuestro método en dos ambientes continuos de la librería OpenAI Gym y lo comparamos con dos métodos no jerárquicos del estado del arte. Nuestros resultados indican que el uso del método jerárquico propuesto proporciona una ventaja significativa en la eficiencia de aprendizaje y permite capturar representaciones útiles para hacer control. |
publishDate |
2019 |
dc.date.issued.none.fl_str_mv |
2019 |
dc.date.accessioned.none.fl_str_mv |
2020-09-03T16:14:14Z |
dc.date.available.none.fl_str_mv |
2020-09-03T16:14:14Z |
dc.type.spa.fl_str_mv |
Trabajo de grado - Pregrado |
dc.type.coarversion.fl_str_mv |
http://purl.org/coar/version/c_970fb48d4fbd8a85 |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
dc.type.coar.spa.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/TP |
format |
http://purl.org/coar/resource_type/c_7a1f |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/1992/45788 |
dc.identifier.pdf.none.fl_str_mv |
u828084.pdf |
dc.identifier.instname.spa.fl_str_mv |
instname:Universidad de los Andes |
dc.identifier.reponame.spa.fl_str_mv |
reponame:Repositorio Institucional Séneca |
dc.identifier.repourl.spa.fl_str_mv |
repourl:https://repositorio.uniandes.edu.co/ |
url |
http://hdl.handle.net/1992/45788 |
identifier_str_mv |
u828084.pdf instname:Universidad de los Andes reponame:Repositorio Institucional Séneca repourl:https://repositorio.uniandes.edu.co/ |
dc.language.iso.es_CO.fl_str_mv |
eng |
language |
eng |
dc.rights.uri.*.fl_str_mv |
https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.coar.spa.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
rights_invalid_str_mv |
https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.extent.es_CO.fl_str_mv |
45 hojas |
dc.format.mimetype.es_CO.fl_str_mv |
application/pdf |
dc.publisher.es_CO.fl_str_mv |
Universidad de los Andes |
dc.publisher.program.es_CO.fl_str_mv |
Ingeniería Electrónica |
dc.publisher.faculty.es_CO.fl_str_mv |
Facultad de Ingeniería |
dc.publisher.department.es_CO.fl_str_mv |
Departamento de Ingeniería Eléctrica y Electrónica |
dc.source.es_CO.fl_str_mv |
instname:Universidad de los Andes reponame:Repositorio Institucional Séneca |
instname_str |
Universidad de los Andes |
institution |
Universidad de los Andes |
reponame_str |
Repositorio Institucional Séneca |
collection |
Repositorio Institucional Séneca |
bitstream.url.fl_str_mv |
https://repositorio.uniandes.edu.co/bitstreams/636d9538-e7ba-44c4-a26c-dc0f70c168eb/download https://repositorio.uniandes.edu.co/bitstreams/a88f7d1a-3713-4eb0-9363-0d67b54fa919/download https://repositorio.uniandes.edu.co/bitstreams/6b506493-4bff-49e9-a703-65abc33c586d/download |
bitstream.checksum.fl_str_mv |
fd3287903e24a8f628fd5403b12e5b15 1c8119c895aa5b7b045ac14a929c74a7 7809aa73a67fcdcc318fb0f95d972d57 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio institucional Séneca |
repository.mail.fl_str_mv |
adminrepositorio@uniandes.edu.co |
_version_ |
1812133920471252992 |
spelling |
Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdfinfo:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Quijano Silva, Nicanorvirtual::7745-1Gómez Noriega, Diego Fernando33a0faec-b322-47a2-b9ac-a51472e47093600Giraldo Trujillo, Luis Felipe2020-09-03T16:14:14Z2020-09-03T16:14:14Z2019http://hdl.handle.net/1992/45788u828084.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/Cada vez hay mayor evidencia de que los métodos de aprendizaje por refuerzo jerárquico proveen mejores leyes de control que métodos estándar de aprendizaje por refuerzo, y, aún más, que son necesarios para resolver problemas de control complejos para los cuáles es imperativo explorar eficientemente. En este trabajos proponemos un nuevo método de aprendizaje por refuerzo jerárquico inspirado en el modo en que los humanos, y probablemente la mayoría de animales, parecen resolver tareas complejas: generando representaciones mentales discretas que permiten planear y tomar decisiones de manera eficiente. Más específicamente, nuestra aproximación consiste en el uso de modelos probabilísticos generativos como abstracciones discretas del espacio de estados, un proceso de inferencia de estos modelos y un método de decisión de alto nivel que mapea los modelo escogidos a acciones de alto nivel. Esta acción de alto nivel funciona como un comando hacia un controlador de bajo nivel que también usa la información sensorial completa del estado para realizar una acción. Implementamos nuestro método en dos ambientes continuos de la librería OpenAI Gym y lo comparamos con dos métodos no jerárquicos del estado del arte. Nuestros resultados indican que el uso del método jerárquico propuesto proporciona una ventaja significativa en la eficiencia de aprendizaje y permite capturar representaciones útiles para hacer control.There is increasing evidence that hierarchical reinforcement learning methods provide better control laws than standard reinforcement learning methods, and even more so that it is necessary to solve complex control tasks for which efficient exploration is imperative. We propose a new hierarchical reinforcement learning method inspired in the way humans, and probably most animals, seem to execute complex tasks: by generating discrete mental representations that allow for efficient planning and decision taking. More specifically, our approach consists in the use of probabilistic generative models as discrete abstractions of the state space, an inference process of this models, and a high-level decision method that maps the chosen models to high-level actions. The high-level action works as command to a low-level controller that also uses the full sensory information of the state to take an action. We implemented our method on two continuous environments of the OpenAI Gym benchmark suite and compared it with two non-hierarchical state-of-the-art methods. Our results indicate that using the proposed hierarchical method provides a significant advantage in learning efficiency and allows capturing useful representations for control.Ingeniero ElectrónicoPregrado45 hojasapplication/pdfengUniversidad de los AndesIngeniería ElectrónicaFacultad de IngenieríaDepartamento de Ingeniería Eléctrica y Electrónicainstname:Universidad de los Andesreponame:Repositorio Institucional SénecaDiscrete state-action representations for hierarchical reinforcement learningTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesishttp://purl.org/coar/resource_type/c_7a1fhttp://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/TPAprendizaje por refuerzo (Aprendizaje automático)IngenieríaPublicationhttps://scholar.google.es/citations?user=xu0jdYAAAAAJvirtual::7745-10000-0002-8688-3195virtual::7745-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000849669virtual::7745-1698e35fc-6e9e-4c84-8960-ae30da9bc64avirtual::7745-1698e35fc-6e9e-4c84-8960-ae30da9bc64avirtual::7745-1ORIGINALu828084.pdfapplication/pdf3651144https://repositorio.uniandes.edu.co/bitstreams/636d9538-e7ba-44c4-a26c-dc0f70c168eb/downloadfd3287903e24a8f628fd5403b12e5b15MD51THUMBNAILu828084.pdf.jpgu828084.pdf.jpgIM Thumbnailimage/jpeg7959https://repositorio.uniandes.edu.co/bitstreams/a88f7d1a-3713-4eb0-9363-0d67b54fa919/download1c8119c895aa5b7b045ac14a929c74a7MD55TEXTu828084.pdf.txtu828084.pdf.txtExtracted texttext/plain63218https://repositorio.uniandes.edu.co/bitstreams/6b506493-4bff-49e9-a703-65abc33c586d/download7809aa73a67fcdcc318fb0f95d972d57MD541992/45788oai:repositorio.uniandes.edu.co:1992/457882024-03-13 13:30:29.736https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdfopen.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co |