Estimación monocular de profundidad con un enfoque basado en machine learning

La estimación de profundidad a partir de imágenes es un desafío complejo en visión por computadora con aplicaciones como la navegación autónoma y la realidad aumentada. Este proyecto de grado tiene como objetivo desarrollar, entrenar y exportar un modelo de estimación de profundidad monocular sin de...

Full description

Autores:
Duarte Aguilar, Andrés Felipe
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2024
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/74467
Acceso en línea:
https://hdl.handle.net/1992/74467
Palabra clave:
Estimación de profundidad
Visión por computadora
Red neuronal convolucional (CNN)
CBAM (Convolutional Block Attention Module)
Inteligencia artificial
SSIM (Structural Similarity Index)
Ingeniería
Rights
openAccess
License
Attribution-NonCommercial-NoDerivatives 4.0 International
Description
Summary:La estimación de profundidad a partir de imágenes es un desafío complejo en visión por computadora con aplicaciones como la navegación autónoma y la realidad aumentada. Este proyecto de grado tiene como objetivo desarrollar, entrenar y exportar un modelo de estimación de profundidad monocular sin depender de soluciones preexistentes, permitiendo una comprensión profunda del desarrollo de un modelo de inteligencia artificial. Se utiliza una red neuronal convolucional (CNN) por su capacidad para extraer y representar características visuales, implementando módulos de atención CBAM (Convolutional Block Attention Module) para enfocar el modelo en características relevantes tanto a nivel de canal como espacial. Además, se emplea una función de pérdida que combina L1 y SSIM para mantener la coherencia estructural en las predicciones de profundidad, penalizando adecuadamente los errores grandes y pequeños.