Multi-modal RGB-D Image Segmentation from Appearance and Geometric Depth Maps

Los algoritmos clásicos de segmentación de imágenes explotan la detección de similitudes y discontinuidades en diferentes señales visuales, para definir regiones de interés en imágenes. Sin embargo, debido a la alta variabilidad e incertidumbre en los datos de imagen, se dificulta generar resultados...

Full description

Autores:
Salazar, Isail
Pertuz, Said
Martínez , Fabio
Tipo de recurso:
Article of journal
Fecha de publicación:
2020
Institución:
Instituto Tecnológico Metropolitano
Repositorio:
Repositorio ITM
Idioma:
spa
eng
OAI Identifier:
oai:repositorio.itm.edu.co:20.500.12622/4616
Acceso en línea:
https://revistas.itm.edu.co/index.php/tecnologicas/article/view/1538
http://hdl.handle.net/20.500.12622/4616
Palabra clave:
Segmentación de imágenes
sobre-segmentación
imágenes RGB-D
información de profundidad
segmentación multi-modal
Image segmentation
over-segmentation
RGB-D images
depth information
multi-modal segmentation
Rights
License
Copyright (c) 2020 TecnoLógicas
id RepoITM2_e6ceb4b18416701397828622aa75a3b3
oai_identifier_str oai:repositorio.itm.edu.co:20.500.12622/4616
network_acronym_str RepoITM2
network_name_str Repositorio ITM
repository_id_str
dc.title.spa.fl_str_mv Multi-modal RGB-D Image Segmentation from Appearance and Geometric Depth Maps
dc.title.alternative.eng.fl_str_mv Segmentación multi-modal de imágenes RGB-D a partir de mapas de apariencia y de profundidad geométrica
title Multi-modal RGB-D Image Segmentation from Appearance and Geometric Depth Maps
spellingShingle Multi-modal RGB-D Image Segmentation from Appearance and Geometric Depth Maps
Segmentación de imágenes
sobre-segmentación
imágenes RGB-D
información de profundidad
segmentación multi-modal
Image segmentation
over-segmentation
RGB-D images
depth information
multi-modal segmentation
title_short Multi-modal RGB-D Image Segmentation from Appearance and Geometric Depth Maps
title_full Multi-modal RGB-D Image Segmentation from Appearance and Geometric Depth Maps
title_fullStr Multi-modal RGB-D Image Segmentation from Appearance and Geometric Depth Maps
title_full_unstemmed Multi-modal RGB-D Image Segmentation from Appearance and Geometric Depth Maps
title_sort Multi-modal RGB-D Image Segmentation from Appearance and Geometric Depth Maps
dc.creator.fl_str_mv Salazar, Isail
Pertuz, Said
Martínez , Fabio
dc.contributor.author.none.fl_str_mv Salazar, Isail
Pertuz, Said
Martínez , Fabio
dc.subject.spa.fl_str_mv Segmentación de imágenes
sobre-segmentación
imágenes RGB-D
información de profundidad
segmentación multi-modal
topic Segmentación de imágenes
sobre-segmentación
imágenes RGB-D
información de profundidad
segmentación multi-modal
Image segmentation
over-segmentation
RGB-D images
depth information
multi-modal segmentation
dc.subject.keywords.eng.fl_str_mv Image segmentation
over-segmentation
RGB-D images
depth information
multi-modal segmentation
description Los algoritmos clásicos de segmentación de imágenes explotan la detección de similitudes y discontinuidades en diferentes señales visuales, para definir regiones de interés en imágenes. Sin embargo, debido a la alta variabilidad e incertidumbre en los datos de imagen, se dificulta generar resultados acertados. En otras palabras, la segmentación basada solo en color a menudo no es suficiente para un gran porcentaje de escenas reales. Este trabajo presenta una nueva estrategia de segmentación multi-modal que integra señales de profundidad y apariencia desde imágenes RGB-D, por medio de una representación jerárquica basada en regiones, es decir, un árbol de segmentación multi-modal (MM-tree). Para ello, la imagen RGB-D es descrita de manera complementaria por diferentes mapas de segmentación. A partir de la imagen de color, se implementa un árbol de segmentación de color (C-tree) para obtener mapas de segmentación y sobre-segmentación. Desde de la imagen de profundidad, se derivan dos mapas de segmentación independientes, los cuales se basan en el cálculo de primitivas de planos y de bordes 3D. Seguidamente, un proceso de fusión jerárquico de regiones permite agrupar de manera local los mapas obtenidos anteriormente en el MM-tree. Por último, el nivel superior emergente del MM-tree integra coherentemente la información disponible en los mapas de profundidad y apariencia. Los experimentos se realizaron con el conjunto de imágenes RGB-D del NYU-Depth V2, evidenciando resultados competitivos, con respecto a los métodos de segmentación del estado del arte. Específicamente, en las imágenes de prueba, se obtuvieron puntajes promedio de 0.56 en la medida de Segmentation Covering y 2.13 en Variation of Information.
publishDate 2020
dc.date.issued.none.fl_str_mv 2020-05-15
dc.date.accessioned.none.fl_str_mv 2021-04-21T16:55:18Z
dc.date.available.none.fl_str_mv 2021-04-21T16:55:18Z
dc.type.none.fl_str_mv info:eu-repo/semantics/article
dc.type.eng.fl_str_mv Articles
dc.type.coar.fl_str_mv http://purl.org/coar/resource_type/c_2df8fbb1
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.spa.spa.fl_str_mv Artículos
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_6501
format http://purl.org/coar/resource_type/c_6501
dc.identifier.none.fl_str_mv https://revistas.itm.edu.co/index.php/tecnologicas/article/view/1538
10.22430/22565337.1538
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12622/4616
url https://revistas.itm.edu.co/index.php/tecnologicas/article/view/1538
http://hdl.handle.net/20.500.12622/4616
identifier_str_mv 10.22430/22565337.1538
dc.language.iso.none.fl_str_mv spa
eng
language spa
eng
dc.relation.none.fl_str_mv https://revistas.itm.edu.co/index.php/tecnologicas/article/view/1538
10.22430/22565337.1538
dc.relation.ispartofjournal.none.fl_str_mv TecnoLógicas
dc.rights.spa.fl_str_mv Copyright (c) 2020 TecnoLógicas
http://creativecommons.org/licenses/by-nc-sa/4.0
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv Copyright (c) 2020 TecnoLógicas
http://creativecommons.org/licenses/by-nc-sa/4.0
http://purl.org/coar/access_right/c_abf2
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.spa.fl_str_mv Instituto Tecnológico Metropolitano - ITM
dc.source.none.fl_str_mv 2256-5337
0123-7799
dc.source.eng.fl_str_mv TecnoLógicas; Vol. 23 No. 48 (2020); 143-161
dc.source.spa.fl_str_mv TecnoLógicas; Vol. 23 Núm. 48 (2020); 143-161
institution Instituto Tecnológico Metropolitano
repository.name.fl_str_mv Repositorio Instituto Tecnológico Metropolitano de Medellín
repository.mail.fl_str_mv bdigital@metabiblioteca.com
_version_ 1837096890575880192
spelling Salazar, IsailPertuz, SaidMartínez , Fabio2021-04-21T16:55:18Z2021-04-21T16:55:18Z2020-05-15https://revistas.itm.edu.co/index.php/tecnologicas/article/view/153810.22430/22565337.1538http://hdl.handle.net/20.500.12622/4616Los algoritmos clásicos de segmentación de imágenes explotan la detección de similitudes y discontinuidades en diferentes señales visuales, para definir regiones de interés en imágenes. Sin embargo, debido a la alta variabilidad e incertidumbre en los datos de imagen, se dificulta generar resultados acertados. En otras palabras, la segmentación basada solo en color a menudo no es suficiente para un gran porcentaje de escenas reales. Este trabajo presenta una nueva estrategia de segmentación multi-modal que integra señales de profundidad y apariencia desde imágenes RGB-D, por medio de una representación jerárquica basada en regiones, es decir, un árbol de segmentación multi-modal (MM-tree). Para ello, la imagen RGB-D es descrita de manera complementaria por diferentes mapas de segmentación. A partir de la imagen de color, se implementa un árbol de segmentación de color (C-tree) para obtener mapas de segmentación y sobre-segmentación. Desde de la imagen de profundidad, se derivan dos mapas de segmentación independientes, los cuales se basan en el cálculo de primitivas de planos y de bordes 3D. Seguidamente, un proceso de fusión jerárquico de regiones permite agrupar de manera local los mapas obtenidos anteriormente en el MM-tree. Por último, el nivel superior emergente del MM-tree integra coherentemente la información disponible en los mapas de profundidad y apariencia. Los experimentos se realizaron con el conjunto de imágenes RGB-D del NYU-Depth V2, evidenciando resultados competitivos, con respecto a los métodos de segmentación del estado del arte. Específicamente, en las imágenes de prueba, se obtuvieron puntajes promedio de 0.56 en la medida de Segmentation Covering y 2.13 en Variation of Information.Classical image segmentation algorithms exploit the detection of similarities and discontinuities of different visual cues to define and differentiate multiple regions of interest in images. However, due to the high variability and uncertainty of image data, producing accurate results is difficult. In other words, segmentation based just on color is often insufficient for a large percentage of real-life scenes. This work presents a novel multi-modal segmentation strategy that integrates depth and appearance cues from RGB-D images by building a hierarchical region-based representation, i.e., a multi-modal segmentation tree (MM-tree). For this purpose, RGB-D image pairs are represented in a complementary fashion by different segmentation maps. Based on color images, a color segmentation tree (C-tree) is created to obtain segmented and over-segmented maps. From depth images, two independent segmentation maps are derived by computing planar and 3D edge primitives. Then, an iterative region merging process can be used to locally group the previously obtained maps into the MM-tree. Finally, the top emerging MM-tree level coherently integrates the available information from depth and appearance maps. The experiments were conducted using the NYU-Depth V2 RGB-D dataset, which demonstrated the competitive results of our strategy compared to state-of-the-art segmentation methods. Specifically, using test images, our method reached average scores of 0.56 in Segmentation Covering and 2.13 in Variation of Information.application/pdfspaengInstituto Tecnológico Metropolitano - ITMhttps://revistas.itm.edu.co/index.php/tecnologicas/article/view/153810.22430/22565337.1538TecnoLógicasCopyright (c) 2020 TecnoLógicashttp://creativecommons.org/licenses/by-nc-sa/4.0http://purl.org/coar/access_right/c_abf22256-53370123-7799TecnoLógicas; Vol. 23 No. 48 (2020); 143-161TecnoLógicas; Vol. 23 Núm. 48 (2020); 143-161Segmentación de imágenessobre-segmentaciónimágenes RGB-Dinformación de profundidadsegmentación multi-modalImage segmentationover-segmentationRGB-D imagesdepth informationmulti-modal segmentationMulti-modal RGB-D Image Segmentation from Appearance and Geometric Depth MapsSegmentación multi-modal de imágenes RGB-D a partir de mapas de apariencia y de profundidad geométricaArtículosinfo:eu-repo/semantics/articleArticleshttp://purl.org/coar/resource_type/c_6501http://purl.org/coar/resource_type/c_2df8fbb1http://purl.org/coar/version/c_970fb48d4fbd8a85Publication20.500.12622/4616oai:dspace-itm.metabuscador.org:20.500.12622/46162025-06-20 16:13:52.737metadata.onlyhttps://dspace-itm.metabuscador.orgRepositorio Instituto Tecnológico Metropolitano de Medellínbdigital@metabiblioteca.com