Formación de patrones por movimiento autónomo a través de algoritmos de Deep QLearning
Este proyecto de grado se ocupa del problema de navegacion autónoma en 3D por medio de aprendizaje por refuerzo profundo (DRL por sus siglas en ingles), empleando específicamente el algoritmo de DQN(Deep QLearning)[1], para cinco drones simulados en un ambiente parcialmente observable por medio de s...
- Autores:
-
Valdelamar Martelo, Álvaro Ramón
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2021
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/55697
- Acceso en línea:
- http://hdl.handle.net/1992/55697
- Palabra clave:
- Deep Qlearning
Navegación autónoma
Navegación sin mapa
Evasión de obstáculos
Aprendizaje por refuerzo
Ingeniería
- Rights
- openAccess
- License
- https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
Summary: | Este proyecto de grado se ocupa del problema de navegacion autónoma en 3D por medio de aprendizaje por refuerzo profundo (DRL por sus siglas en ingles), empleando específicamente el algoritmo de DQN(Deep QLearning)[1], para cinco drones simulados en un ambiente parcialmente observable por medio de sensores ultrasonicos. En este proyecto se implementó una estructura básica de enjambre[2] evaluando la capacidad de aprendizaje de un solo dron en un mapa con obstaculos dinámicos. Es decir, se implementó una estructura vainilla de aprendizaje por refuerzo para un unico agente, la cual se replicó para cinco drones a través de un control centralizado. El ambiente de aprendizaje fue realizado en el simluador Coppeliasim[3], el cual fue conectado por medio de la API (interfaz de programacion de aplicaciones) remota de Python con la librería Stable.Baselines3[4], la cual ofrece una implementacion de código abierto para el algoritmo DQN. Se entrenó dos modelos de agentes, uno para un ambiente con ´ obstaculos estáticos y otro para obstáculos dinámicos, sobre ´ los cuales se les hizo distintas pruebas para llegar a distintos objetivos desde varios puntos iniciales. Se obtuvieron resultados positivos con distintos porcentajes de exitos tanto en la ´ operacion de un solo dron, tanto como para la formación de cinco patrones distintos en el modelo dinamico empleando cinco drones. Demostracion de los resultados puede verse en este enlace https://youtu.be/hzlIE LR3Fk |
---|