Formación de patrones por movimiento autónomo a través de algoritmos de Deep QLearning

Este proyecto de grado se ocupa del problema de navegacion autónoma en 3D por medio de aprendizaje por refuerzo profundo (DRL por sus siglas en ingles), empleando específicamente el algoritmo de DQN(Deep QLearning)[1], para cinco drones simulados en un ambiente parcialmente observable por medio de s...

Full description

Autores:
Valdelamar Martelo, Álvaro Ramón
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2021
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/55697
Acceso en línea:
http://hdl.handle.net/1992/55697
Palabra clave:
Deep Qlearning
Navegación autónoma
Navegación sin mapa
Evasión de obstáculos
Aprendizaje por refuerzo
Ingeniería
Rights
openAccess
License
https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
Description
Summary:Este proyecto de grado se ocupa del problema de navegacion autónoma en 3D por medio de aprendizaje por refuerzo profundo (DRL por sus siglas en ingles), empleando específicamente el algoritmo de DQN(Deep QLearning)[1], para cinco drones simulados en un ambiente parcialmente observable por medio de sensores ultrasonicos. En este proyecto se implementó una estructura básica de enjambre[2] evaluando la capacidad de aprendizaje de un solo dron en un mapa con obstaculos dinámicos. Es decir, se implementó una estructura vainilla de aprendizaje por refuerzo para un unico agente, la cual se replicó para cinco drones a través de un control centralizado. El ambiente de aprendizaje fue realizado en el simluador Coppeliasim[3], el cual fue conectado por medio de la API (interfaz de programacion de aplicaciones) remota de Python con la librería Stable.Baselines3[4], la cual ofrece una implementacion de código abierto para el algoritmo DQN. Se entrenó dos modelos de agentes, uno para un ambiente con ´ obstaculos estáticos y otro para obstáculos dinámicos, sobre ´ los cuales se les hizo distintas pruebas para llegar a distintos objetivos desde varios puntos iniciales. Se obtuvieron resultados positivos con distintos porcentajes de exitos tanto en la ´ operacion de un solo dron, tanto como para la formación de cinco patrones distintos en el modelo dinamico empleando cinco drones. Demostracion de los resultados puede verse en este enlace https://youtu.be/hzlIE LR3Fk