Implementación y evaluación de algoritmos de aprendizaje por refuerzo para tareas de control de drones en un ambiente de simulación realista

The recent success of the Deep Reinforcement Learning (DRL) algorithms opened its use in different environments and dynamical systems. We present the behavior of a complex dynamic system (quadrotor) in basic tasks as hovering and X-Y displacement in a realistic simulator. The DRL algorithms used wer...

Full description

Autores:
Garzón Albarracin, Juan Felipe
Tipo de recurso:
Fecha de publicación:
2021
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
eng
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/50934
Acceso en línea:
http://hdl.handle.net/1992/50934
Palabra clave:
Drones
Vehículos piloteados de forma remota
Aprendizaje por refuerzo (Aprendizaje automático)
Redes neurales (Computadores)
Control automático
Ingeniería
Rights
openAccess
License
https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
id UNIANDES2_668fc1036acdf905d69f631a708f2b24
oai_identifier_str oai:repositorio.uniandes.edu.co:1992/50934
network_acronym_str UNIANDES2
network_name_str Séneca: repositorio Uniandes
repository_id_str
dc.title.spa.fl_str_mv Implementación y evaluación de algoritmos de aprendizaje por refuerzo para tareas de control de drones en un ambiente de simulación realista
title Implementación y evaluación de algoritmos de aprendizaje por refuerzo para tareas de control de drones en un ambiente de simulación realista
spellingShingle Implementación y evaluación de algoritmos de aprendizaje por refuerzo para tareas de control de drones en un ambiente de simulación realista
Drones
Vehículos piloteados de forma remota
Aprendizaje por refuerzo (Aprendizaje automático)
Redes neurales (Computadores)
Control automático
Ingeniería
title_short Implementación y evaluación de algoritmos de aprendizaje por refuerzo para tareas de control de drones en un ambiente de simulación realista
title_full Implementación y evaluación de algoritmos de aprendizaje por refuerzo para tareas de control de drones en un ambiente de simulación realista
title_fullStr Implementación y evaluación de algoritmos de aprendizaje por refuerzo para tareas de control de drones en un ambiente de simulación realista
title_full_unstemmed Implementación y evaluación de algoritmos de aprendizaje por refuerzo para tareas de control de drones en un ambiente de simulación realista
title_sort Implementación y evaluación de algoritmos de aprendizaje por refuerzo para tareas de control de drones en un ambiente de simulación realista
dc.creator.fl_str_mv Garzón Albarracin, Juan Felipe
dc.contributor.advisor.none.fl_str_mv González Mancera, Andrés Leonardo
dc.contributor.author.none.fl_str_mv Garzón Albarracin, Juan Felipe
dc.contributor.jury.none.fl_str_mv Giraldo Trujillo, Luis Felipe
Rodríguez Herrera, Carlos Francisco
dc.subject.armarc.es_CO.fl_str_mv Drones
Vehículos piloteados de forma remota
Aprendizaje por refuerzo (Aprendizaje automático)
Redes neurales (Computadores)
Control automático
topic Drones
Vehículos piloteados de forma remota
Aprendizaje por refuerzo (Aprendizaje automático)
Redes neurales (Computadores)
Control automático
Ingeniería
dc.subject.themes.none.fl_str_mv Ingeniería
description The recent success of the Deep Reinforcement Learning (DRL) algorithms opened its use in different environments and dynamical systems. We present the behavior of a complex dynamic system (quadrotor) in basic tasks as hovering and X-Y displacement in a realistic simulator. The DRL algorithms used were for continuous spaces, such as Deep Deterministic Policy Gradient (DDPG) and Proximal Policy Optimization (PPO). We probed dense and sparse reward functions and changed the negative component to demonstrate the impact of these parameters on a fast and repeatable learning process. We found that there is a major impact on the agent learning process because of the reward function, a correct selection could make the training times shorter and the repeatability higher. Contrasted with dense rewards, sparse rewards have less repetitive results and have poor results on tasks such as hovering and reaching X-Y points. Negative rewards directly affect the learning process when using PPO.
publishDate 2021
dc.date.accessioned.none.fl_str_mv 2021-08-10T18:04:22Z
dc.date.available.none.fl_str_mv 2021-08-10T18:04:22Z
dc.date.issued.none.fl_str_mv 2021
dc.type.spa.fl_str_mv Trabajo de grado - Maestría
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TM
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/1992/50934
dc.identifier.pdf.none.fl_str_mv 23705.pdf
dc.identifier.instname.spa.fl_str_mv instname:Universidad de los Andes
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional Séneca
dc.identifier.repourl.spa.fl_str_mv repourl:https://repositorio.uniandes.edu.co/
url http://hdl.handle.net/1992/50934
identifier_str_mv 23705.pdf
instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
repourl:https://repositorio.uniandes.edu.co/
dc.language.iso.none.fl_str_mv eng
language eng
dc.rights.uri.*.fl_str_mv https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.none.fl_str_mv 15 hojas
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de los Andes
dc.publisher.program.none.fl_str_mv Maestría en Ingeniería Mecánica
dc.publisher.faculty.none.fl_str_mv Facultad de Ingeniería
dc.publisher.department.none.fl_str_mv Departamento de Ingeniería Mecánica
publisher.none.fl_str_mv Universidad de los Andes
institution Universidad de los Andes
bitstream.url.fl_str_mv https://repositorio.uniandes.edu.co/bitstreams/d5436808-a429-4686-b519-d2de5fd2656e/download
https://repositorio.uniandes.edu.co/bitstreams/3f62e656-d7df-4a04-97cd-6e61636ac3a1/download
https://repositorio.uniandes.edu.co/bitstreams/ae6e8ab8-0981-4b01-bd97-68bdac92bf7b/download
bitstream.checksum.fl_str_mv 7449767983f1d60bec4c7b0eaf53db3a
fa357ecf8108c0c20029be7be9f299a7
13e1a2b52b177aa24ea2af0b80a29a02
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio institucional Séneca
repository.mail.fl_str_mv adminrepositorio@uniandes.edu.co
_version_ 1812133987453239296
spelling Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdfinfo:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2González Mancera, Andrés Leonardo5fea59ea-e2de-49ed-83ac-9f3733e2d820400Garzón Albarracin, Juan Felipe4313add6-be70-42d5-a792-acca434ab008400Giraldo Trujillo, Luis FelipeRodríguez Herrera, Carlos Francisco2021-08-10T18:04:22Z2021-08-10T18:04:22Z2021http://hdl.handle.net/1992/5093423705.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/The recent success of the Deep Reinforcement Learning (DRL) algorithms opened its use in different environments and dynamical systems. We present the behavior of a complex dynamic system (quadrotor) in basic tasks as hovering and X-Y displacement in a realistic simulator. The DRL algorithms used were for continuous spaces, such as Deep Deterministic Policy Gradient (DDPG) and Proximal Policy Optimization (PPO). We probed dense and sparse reward functions and changed the negative component to demonstrate the impact of these parameters on a fast and repeatable learning process. We found that there is a major impact on the agent learning process because of the reward function, a correct selection could make the training times shorter and the repeatability higher. Contrasted with dense rewards, sparse rewards have less repetitive results and have poor results on tasks such as hovering and reaching X-Y points. Negative rewards directly affect the learning process when using PPO.El reciente éxito de los algoritmos Deep Reinforcement Learning (DRL) abrió su uso en diferentes entornos y sistemas dinámicos. Presentamos el comportamiento de un sistema dinámico complejo (quadrotor) en tareas básicas como vuelo estacionario y desplazamiento X-Y en un simulador realista. Los algoritmos DRL utilizados fueron para espacios continuos, como Deep Deterministic Policy Gradient (DDPG) y Proximal Policy Optimización (PPO). Probamos funciones de recompensa sparse y dense y cambiamos el componente negativo para demostrar el impacto de estos parámetros en un proceso de aprendizaje repetible. Descubrimos que existe un gran impacto en el proceso de aprendizaje del agente debido a la función de recompensa, una selección correcta podría acortar los tiempos de entrenamiento y aumentar la repetibilidad. En contraste con las recompensas densas, las recompensas sparse tienen resultados menos repetitivos y tienen malos resultados en las tareas como hovering y alcanzar puntos X-Y. Las recompensas negativas afectan directamente al proceso de aprendizaje al usar PPO.Magíster en Ingeniería MecánicaMaestría15 hojasapplication/pdfengUniversidad de los AndesMaestría en Ingeniería MecánicaFacultad de IngenieríaDepartamento de Ingeniería MecánicaImplementación y evaluación de algoritmos de aprendizaje por refuerzo para tareas de control de drones en un ambiente de simulación realistaTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesishttp://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/TMDronesVehículos piloteados de forma remotaAprendizaje por refuerzo (Aprendizaje automático)Redes neurales (Computadores)Control automáticoIngeniería201317331PublicationORIGINAL23705.pdfapplication/pdf1531260https://repositorio.uniandes.edu.co/bitstreams/d5436808-a429-4686-b519-d2de5fd2656e/download7449767983f1d60bec4c7b0eaf53db3aMD51TEXT23705.pdf.txt23705.pdf.txtExtracted texttext/plain29929https://repositorio.uniandes.edu.co/bitstreams/3f62e656-d7df-4a04-97cd-6e61636ac3a1/downloadfa357ecf8108c0c20029be7be9f299a7MD54THUMBNAIL23705.pdf.jpg23705.pdf.jpgIM Thumbnailimage/jpeg11081https://repositorio.uniandes.edu.co/bitstreams/ae6e8ab8-0981-4b01-bd97-68bdac92bf7b/download13e1a2b52b177aa24ea2af0b80a29a02MD551992/50934oai:repositorio.uniandes.edu.co:1992/509342023-10-10 18:19:05.589https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdfopen.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co