Estimación monocular de profundidad con un enfoque basado en machine learning
La estimación de profundidad a partir de imágenes es un desafío complejo en visión por computadora con aplicaciones como la navegación autónoma y la realidad aumentada. Este proyecto de grado tiene como objetivo desarrollar, entrenar y exportar un modelo de estimación de profundidad monocular sin de...
- Autores:
-
Duarte Aguilar, Andrés Felipe
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2024
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/74467
- Acceso en línea:
- https://hdl.handle.net/1992/74467
- Palabra clave:
- Estimación de profundidad
Visión por computadora
Red neuronal convolucional (CNN)
CBAM (Convolutional Block Attention Module)
Inteligencia artificial
SSIM (Structural Similarity Index)
Ingeniería
- Rights
- openAccess
- License
- Attribution-NonCommercial-NoDerivatives 4.0 International
Summary: | La estimación de profundidad a partir de imágenes es un desafío complejo en visión por computadora con aplicaciones como la navegación autónoma y la realidad aumentada. Este proyecto de grado tiene como objetivo desarrollar, entrenar y exportar un modelo de estimación de profundidad monocular sin depender de soluciones preexistentes, permitiendo una comprensión profunda del desarrollo de un modelo de inteligencia artificial. Se utiliza una red neuronal convolucional (CNN) por su capacidad para extraer y representar características visuales, implementando módulos de atención CBAM (Convolutional Block Attention Module) para enfocar el modelo en características relevantes tanto a nivel de canal como espacial. Además, se emplea una función de pérdida que combina L1 y SSIM para mantener la coherencia estructural en las predicciones de profundidad, penalizando adecuadamente los errores grandes y pequeños. |
---|