Stochastic video translation

La clasificación de expresiones faciales es una tarea que ha sido estudiada durante los últimos años. Sin embargo, los métodos usados para realizar la clasificación quieren una gran cantidad de imágenes para su entrenamiento. Además, para lograr un buen desempeño, es necesario lograr una buena gener...

Full description

Autores:
Castillo Aguirre, Ángela
Tipo de recurso:
Fecha de publicación:
2019
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
eng
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/43989
Acceso en línea:
http://hdl.handle.net/1992/43989
Palabra clave:
Reconocimiento facial (Informática) - Investigaciones
Aprendizaje automático (Inteligencia artificial) - Investigaciones
Ingeniería
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-nd/4.0/
id UNIANDES2_4689f677502960638c26cf5969fe9eb7
oai_identifier_str oai:repositorio.uniandes.edu.co:1992/43989
network_acronym_str UNIANDES2
network_name_str Séneca: repositorio Uniandes
repository_id_str
dc.title.es_CO.fl_str_mv Stochastic video translation
title Stochastic video translation
spellingShingle Stochastic video translation
Reconocimiento facial (Informática) - Investigaciones
Aprendizaje automático (Inteligencia artificial) - Investigaciones
Ingeniería
title_short Stochastic video translation
title_full Stochastic video translation
title_fullStr Stochastic video translation
title_full_unstemmed Stochastic video translation
title_sort Stochastic video translation
dc.creator.fl_str_mv Castillo Aguirre, Ángela
dc.contributor.advisor.none.fl_str_mv Arbeláez Escalante, Pablo Andrés
dc.contributor.author.none.fl_str_mv Castillo Aguirre, Ángela
dc.contributor.jury.none.fl_str_mv Valderrama Manrique, Mario Andrés
Hernández Peñaloza, José Tiberio
dc.subject.armarc.es_CO.fl_str_mv Reconocimiento facial (Informática) - Investigaciones
Aprendizaje automático (Inteligencia artificial) - Investigaciones
topic Reconocimiento facial (Informática) - Investigaciones
Aprendizaje automático (Inteligencia artificial) - Investigaciones
Ingeniería
dc.subject.themes.none.fl_str_mv Ingeniería
description La clasificación de expresiones faciales es una tarea que ha sido estudiada durante los últimos años. Sin embargo, los métodos usados para realizar la clasificación quieren una gran cantidad de imágenes para su entrenamiento. Además, para lograr un buen desempeño, es necesario lograr una buena generalización. Ésto se alcanza mediante el uso de bases de datos con gran cantidad de imágenes. El aumento de datos debe ser consistente tanto espacialmente (las imágenes resultantes deben mantener la estructura de las personas como la cabeza en la parte superior de la imagen y los hombros y torso en la parte inferior) como temporalmente, para asegurar concordancia en las imágenes de las secuencias. Por un lado, los métodos de aumento aún no son lo suficientemente robustos para mejorar los métodos ya que consisten en transformaciones lineales de los datos originales y no generalizan bien los métodos. Por otro lado, la traducción de imágenes permite la generación de datos sintéticos a partir de imágenes reales. Los métodos de traducción de imágenes cambian las características de la imagen en dominio original a un dominio objetivo. Proponemos la traducción de vídeo estocástico (SVIT, por sus siglas en inglés), un método que es capaz de producir imágenes realistas en diferentes dominios. En adición, consideramos la información temporal para hacer un modelamiento que sea consistente en las dimensiones espaciales y temporales al mismo tiempo. Nuestros resultados en traducción de imágenes resultan ser más realistas comparados con los métodos del estado del arte.
publishDate 2019
dc.date.issued.es_CO.fl_str_mv 2019
dc.date.accessioned.none.fl_str_mv 2020-09-03T14:19:34Z
dc.date.available.none.fl_str_mv 2020-09-03T14:19:34Z
dc.type.spa.fl_str_mv Trabajo de grado - Maestría
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TM
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/1992/43989
dc.identifier.pdf.none.fl_str_mv u830639.pdf
dc.identifier.instname.spa.fl_str_mv instname:Universidad de los Andes
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional Séneca
dc.identifier.repourl.spa.fl_str_mv repourl:https://repositorio.uniandes.edu.co/
url http://hdl.handle.net/1992/43989
identifier_str_mv u830639.pdf
instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
repourl:https://repositorio.uniandes.edu.co/
dc.language.iso.es_CO.fl_str_mv eng
language eng
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.es_CO.fl_str_mv 12 hojas
dc.format.mimetype.es_CO.fl_str_mv application/pdf
dc.publisher.es_CO.fl_str_mv Uniandes
dc.publisher.program.es_CO.fl_str_mv Maestría en Ingeniería Biomédica
dc.publisher.faculty.es_CO.fl_str_mv Facultad de Ingeniería
dc.publisher.department.es_CO.fl_str_mv Departamento de Ingeniería Biomédica
dc.source.es_CO.fl_str_mv instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
instname_str Universidad de los Andes
institution Universidad de los Andes
reponame_str Repositorio Institucional Séneca
collection Repositorio Institucional Séneca
bitstream.url.fl_str_mv https://repositorio.uniandes.edu.co/bitstreams/c0ff00cf-bdd1-4032-bb41-9041fdec5813/download
https://repositorio.uniandes.edu.co/bitstreams/534af2e1-5dfa-4cca-893e-24e67be7963d/download
https://repositorio.uniandes.edu.co/bitstreams/6e5ef32f-ade4-4c29-b0dd-0c738c04710d/download
bitstream.checksum.fl_str_mv e967f45b76868887f91cba23830166ca
4aa547eca59587e515b4e1f2af96b050
7b1025b10ba2ef82d6cf6f5e1903adb5
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio institucional Séneca
repository.mail.fl_str_mv adminrepositorio@uniandes.edu.co
_version_ 1812133834127310848
spelling Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Arbeláez Escalante, Pablo Andrés7b73426f-f63b-413f-b44b-ddfa70416b65400Castillo Aguirre, Ángela4450893d-2d2c-4953-824c-68e7e0ccda71500Valderrama Manrique, Mario AndrésHernández Peñaloza, José Tiberio2020-09-03T14:19:34Z2020-09-03T14:19:34Z2019http://hdl.handle.net/1992/43989u830639.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/La clasificación de expresiones faciales es una tarea que ha sido estudiada durante los últimos años. Sin embargo, los métodos usados para realizar la clasificación quieren una gran cantidad de imágenes para su entrenamiento. Además, para lograr un buen desempeño, es necesario lograr una buena generalización. Ésto se alcanza mediante el uso de bases de datos con gran cantidad de imágenes. El aumento de datos debe ser consistente tanto espacialmente (las imágenes resultantes deben mantener la estructura de las personas como la cabeza en la parte superior de la imagen y los hombros y torso en la parte inferior) como temporalmente, para asegurar concordancia en las imágenes de las secuencias. Por un lado, los métodos de aumento aún no son lo suficientemente robustos para mejorar los métodos ya que consisten en transformaciones lineales de los datos originales y no generalizan bien los métodos. Por otro lado, la traducción de imágenes permite la generación de datos sintéticos a partir de imágenes reales. Los métodos de traducción de imágenes cambian las características de la imagen en dominio original a un dominio objetivo. Proponemos la traducción de vídeo estocástico (SVIT, por sus siglas en inglés), un método que es capaz de producir imágenes realistas en diferentes dominios. En adición, consideramos la información temporal para hacer un modelamiento que sea consistente en las dimensiones espaciales y temporales al mismo tiempo. Nuestros resultados en traducción de imágenes resultan ser más realistas comparados con los métodos del estado del arte.The classification of facial expressions is a task that has been studied in recent years. However, the methods used for this classification require a large number of images for proper operation. These methods should be generalizable enough to have better performance. This is reached through larger and larger databases. The data augmentation should be both spatially consistent (i.e. the resulting images should maintain the structure of people such as the head at the top of the image and the shoulders and torso at the bottom of the image) as temporarily, ensuring concordance as the expression is carried out. On one hand, the methods of data augmentation still fall short since they perform linear transformations to the images without having much success in generalization. On the other hand, image translation methods offer the possibility of generating synthetic images from real images. Image translation consists on changing characteristics of an original domain to a target domain. To tackle both tasks, we propose Stochastic Video Translation (SVIT), a method capable of producing images that are realistic in different output domains. In addition, we consider temporary information to make a modeling that is consistent in spatial and temporal dimension at the same time. Our results show that the translation of images using the proposed methodology results in more real images compared to the state-of-the-art.Magíster en Ingeniería BiomédicaMaestría12 hojasapplication/pdfengUniandesMaestría en Ingeniería BiomédicaFacultad de IngenieríaDepartamento de Ingeniería Biomédicainstname:Universidad de los Andesreponame:Repositorio Institucional SénecaStochastic video translationTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesishttp://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/TMReconocimiento facial (Informática) - InvestigacionesAprendizaje automático (Inteligencia artificial) - InvestigacionesIngenieríaPublicationTHUMBNAILu830639.pdf.jpgu830639.pdf.jpgIM Thumbnailimage/jpeg8297https://repositorio.uniandes.edu.co/bitstreams/c0ff00cf-bdd1-4032-bb41-9041fdec5813/downloade967f45b76868887f91cba23830166caMD55TEXTu830639.pdf.txtu830639.pdf.txtExtracted texttext/plain48416https://repositorio.uniandes.edu.co/bitstreams/534af2e1-5dfa-4cca-893e-24e67be7963d/download4aa547eca59587e515b4e1f2af96b050MD54ORIGINALu830639.pdfapplication/pdf23984882https://repositorio.uniandes.edu.co/bitstreams/6e5ef32f-ade4-4c29-b0dd-0c738c04710d/download7b1025b10ba2ef82d6cf6f5e1903adb5MD511992/43989oai:repositorio.uniandes.edu.co:1992/439892023-10-10 15:45:25.506http://creativecommons.org/licenses/by-nc-nd/4.0/open.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co