Implementación y evaluación de algoritmos de aprendizaje por refuerzo para tareas de control de drones en un ambiente de simulación realista
The recent success of the Deep Reinforcement Learning (DRL) algorithms opened its use in different environments and dynamical systems. We present the behavior of a complex dynamic system (quadrotor) in basic tasks as hovering and X-Y displacement in a realistic simulator. The DRL algorithms used wer...
- Autores:
-
Garzón Albarracin, Juan Felipe
- Tipo de recurso:
- Fecha de publicación:
- 2021
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- eng
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/50934
- Acceso en línea:
- http://hdl.handle.net/1992/50934
- Palabra clave:
- Drones
Vehículos piloteados de forma remota
Aprendizaje por refuerzo (Aprendizaje automático)
Redes neurales (Computadores)
Control automático
Ingeniería
- Rights
- openAccess
- License
- https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
id |
UNIANDES2_668fc1036acdf905d69f631a708f2b24 |
---|---|
oai_identifier_str |
oai:repositorio.uniandes.edu.co:1992/50934 |
network_acronym_str |
UNIANDES2 |
network_name_str |
Séneca: repositorio Uniandes |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Implementación y evaluación de algoritmos de aprendizaje por refuerzo para tareas de control de drones en un ambiente de simulación realista |
title |
Implementación y evaluación de algoritmos de aprendizaje por refuerzo para tareas de control de drones en un ambiente de simulación realista |
spellingShingle |
Implementación y evaluación de algoritmos de aprendizaje por refuerzo para tareas de control de drones en un ambiente de simulación realista Drones Vehículos piloteados de forma remota Aprendizaje por refuerzo (Aprendizaje automático) Redes neurales (Computadores) Control automático Ingeniería |
title_short |
Implementación y evaluación de algoritmos de aprendizaje por refuerzo para tareas de control de drones en un ambiente de simulación realista |
title_full |
Implementación y evaluación de algoritmos de aprendizaje por refuerzo para tareas de control de drones en un ambiente de simulación realista |
title_fullStr |
Implementación y evaluación de algoritmos de aprendizaje por refuerzo para tareas de control de drones en un ambiente de simulación realista |
title_full_unstemmed |
Implementación y evaluación de algoritmos de aprendizaje por refuerzo para tareas de control de drones en un ambiente de simulación realista |
title_sort |
Implementación y evaluación de algoritmos de aprendizaje por refuerzo para tareas de control de drones en un ambiente de simulación realista |
dc.creator.fl_str_mv |
Garzón Albarracin, Juan Felipe |
dc.contributor.advisor.none.fl_str_mv |
González Mancera, Andrés Leonardo |
dc.contributor.author.none.fl_str_mv |
Garzón Albarracin, Juan Felipe |
dc.contributor.jury.none.fl_str_mv |
Giraldo Trujillo, Luis Felipe Rodríguez Herrera, Carlos Francisco |
dc.subject.armarc.es_CO.fl_str_mv |
Drones Vehículos piloteados de forma remota Aprendizaje por refuerzo (Aprendizaje automático) Redes neurales (Computadores) Control automático |
topic |
Drones Vehículos piloteados de forma remota Aprendizaje por refuerzo (Aprendizaje automático) Redes neurales (Computadores) Control automático Ingeniería |
dc.subject.themes.none.fl_str_mv |
Ingeniería |
description |
The recent success of the Deep Reinforcement Learning (DRL) algorithms opened its use in different environments and dynamical systems. We present the behavior of a complex dynamic system (quadrotor) in basic tasks as hovering and X-Y displacement in a realistic simulator. The DRL algorithms used were for continuous spaces, such as Deep Deterministic Policy Gradient (DDPG) and Proximal Policy Optimization (PPO). We probed dense and sparse reward functions and changed the negative component to demonstrate the impact of these parameters on a fast and repeatable learning process. We found that there is a major impact on the agent learning process because of the reward function, a correct selection could make the training times shorter and the repeatability higher. Contrasted with dense rewards, sparse rewards have less repetitive results and have poor results on tasks such as hovering and reaching X-Y points. Negative rewards directly affect the learning process when using PPO. |
publishDate |
2021 |
dc.date.accessioned.none.fl_str_mv |
2021-08-10T18:04:22Z |
dc.date.available.none.fl_str_mv |
2021-08-10T18:04:22Z |
dc.date.issued.none.fl_str_mv |
2021 |
dc.type.spa.fl_str_mv |
Trabajo de grado - Maestría |
dc.type.coarversion.fl_str_mv |
http://purl.org/coar/version/c_970fb48d4fbd8a85 |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/masterThesis |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/TM |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/1992/50934 |
dc.identifier.pdf.none.fl_str_mv |
23705.pdf |
dc.identifier.instname.spa.fl_str_mv |
instname:Universidad de los Andes |
dc.identifier.reponame.spa.fl_str_mv |
reponame:Repositorio Institucional Séneca |
dc.identifier.repourl.spa.fl_str_mv |
repourl:https://repositorio.uniandes.edu.co/ |
url |
http://hdl.handle.net/1992/50934 |
identifier_str_mv |
23705.pdf instname:Universidad de los Andes reponame:Repositorio Institucional Séneca repourl:https://repositorio.uniandes.edu.co/ |
dc.language.iso.none.fl_str_mv |
eng |
language |
eng |
dc.rights.uri.*.fl_str_mv |
https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.coar.spa.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
rights_invalid_str_mv |
https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.extent.none.fl_str_mv |
15 hojas |
dc.format.mimetype.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de los Andes |
dc.publisher.program.none.fl_str_mv |
Maestría en Ingeniería Mecánica |
dc.publisher.faculty.none.fl_str_mv |
Facultad de Ingeniería |
dc.publisher.department.none.fl_str_mv |
Departamento de Ingeniería Mecánica |
publisher.none.fl_str_mv |
Universidad de los Andes |
institution |
Universidad de los Andes |
bitstream.url.fl_str_mv |
https://repositorio.uniandes.edu.co/bitstreams/d5436808-a429-4686-b519-d2de5fd2656e/download https://repositorio.uniandes.edu.co/bitstreams/3f62e656-d7df-4a04-97cd-6e61636ac3a1/download https://repositorio.uniandes.edu.co/bitstreams/ae6e8ab8-0981-4b01-bd97-68bdac92bf7b/download |
bitstream.checksum.fl_str_mv |
7449767983f1d60bec4c7b0eaf53db3a fa357ecf8108c0c20029be7be9f299a7 13e1a2b52b177aa24ea2af0b80a29a02 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio institucional Séneca |
repository.mail.fl_str_mv |
adminrepositorio@uniandes.edu.co |
_version_ |
1812133987453239296 |
spelling |
Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdfinfo:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2González Mancera, Andrés Leonardo5fea59ea-e2de-49ed-83ac-9f3733e2d820400Garzón Albarracin, Juan Felipe4313add6-be70-42d5-a792-acca434ab008400Giraldo Trujillo, Luis FelipeRodríguez Herrera, Carlos Francisco2021-08-10T18:04:22Z2021-08-10T18:04:22Z2021http://hdl.handle.net/1992/5093423705.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/The recent success of the Deep Reinforcement Learning (DRL) algorithms opened its use in different environments and dynamical systems. We present the behavior of a complex dynamic system (quadrotor) in basic tasks as hovering and X-Y displacement in a realistic simulator. The DRL algorithms used were for continuous spaces, such as Deep Deterministic Policy Gradient (DDPG) and Proximal Policy Optimization (PPO). We probed dense and sparse reward functions and changed the negative component to demonstrate the impact of these parameters on a fast and repeatable learning process. We found that there is a major impact on the agent learning process because of the reward function, a correct selection could make the training times shorter and the repeatability higher. Contrasted with dense rewards, sparse rewards have less repetitive results and have poor results on tasks such as hovering and reaching X-Y points. Negative rewards directly affect the learning process when using PPO.El reciente éxito de los algoritmos Deep Reinforcement Learning (DRL) abrió su uso en diferentes entornos y sistemas dinámicos. Presentamos el comportamiento de un sistema dinámico complejo (quadrotor) en tareas básicas como vuelo estacionario y desplazamiento X-Y en un simulador realista. Los algoritmos DRL utilizados fueron para espacios continuos, como Deep Deterministic Policy Gradient (DDPG) y Proximal Policy Optimización (PPO). Probamos funciones de recompensa sparse y dense y cambiamos el componente negativo para demostrar el impacto de estos parámetros en un proceso de aprendizaje repetible. Descubrimos que existe un gran impacto en el proceso de aprendizaje del agente debido a la función de recompensa, una selección correcta podría acortar los tiempos de entrenamiento y aumentar la repetibilidad. En contraste con las recompensas densas, las recompensas sparse tienen resultados menos repetitivos y tienen malos resultados en las tareas como hovering y alcanzar puntos X-Y. Las recompensas negativas afectan directamente al proceso de aprendizaje al usar PPO.Magíster en Ingeniería MecánicaMaestría15 hojasapplication/pdfengUniversidad de los AndesMaestría en Ingeniería MecánicaFacultad de IngenieríaDepartamento de Ingeniería MecánicaImplementación y evaluación de algoritmos de aprendizaje por refuerzo para tareas de control de drones en un ambiente de simulación realistaTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesishttp://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/TMDronesVehículos piloteados de forma remotaAprendizaje por refuerzo (Aprendizaje automático)Redes neurales (Computadores)Control automáticoIngeniería201317331PublicationORIGINAL23705.pdfapplication/pdf1531260https://repositorio.uniandes.edu.co/bitstreams/d5436808-a429-4686-b519-d2de5fd2656e/download7449767983f1d60bec4c7b0eaf53db3aMD51TEXT23705.pdf.txt23705.pdf.txtExtracted texttext/plain29929https://repositorio.uniandes.edu.co/bitstreams/3f62e656-d7df-4a04-97cd-6e61636ac3a1/downloadfa357ecf8108c0c20029be7be9f299a7MD54THUMBNAIL23705.pdf.jpg23705.pdf.jpgIM Thumbnailimage/jpeg11081https://repositorio.uniandes.edu.co/bitstreams/ae6e8ab8-0981-4b01-bd97-68bdac92bf7b/download13e1a2b52b177aa24ea2af0b80a29a02MD551992/50934oai:repositorio.uniandes.edu.co:1992/509342023-10-10 18:19:05.589https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdfopen.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co |