Stochastic video translation

La clasificación de expresiones faciales es una tarea que ha sido estudiada durante los últimos años. Sin embargo, los métodos usados para realizar la clasificación quieren una gran cantidad de imágenes para su entrenamiento. Además, para lograr un buen desempeño, es necesario lograr una buena gener...

Full description

Autores:
Castillo Aguirre, Ángela
Tipo de recurso:
Fecha de publicación:
2019
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
eng
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/43989
Acceso en línea:
http://hdl.handle.net/1992/43989
Palabra clave:
Reconocimiento facial (Informática) - Investigaciones
Aprendizaje automático (Inteligencia artificial) - Investigaciones
Ingeniería
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-nd/4.0/
Description
Summary:La clasificación de expresiones faciales es una tarea que ha sido estudiada durante los últimos años. Sin embargo, los métodos usados para realizar la clasificación quieren una gran cantidad de imágenes para su entrenamiento. Además, para lograr un buen desempeño, es necesario lograr una buena generalización. Ésto se alcanza mediante el uso de bases de datos con gran cantidad de imágenes. El aumento de datos debe ser consistente tanto espacialmente (las imágenes resultantes deben mantener la estructura de las personas como la cabeza en la parte superior de la imagen y los hombros y torso en la parte inferior) como temporalmente, para asegurar concordancia en las imágenes de las secuencias. Por un lado, los métodos de aumento aún no son lo suficientemente robustos para mejorar los métodos ya que consisten en transformaciones lineales de los datos originales y no generalizan bien los métodos. Por otro lado, la traducción de imágenes permite la generación de datos sintéticos a partir de imágenes reales. Los métodos de traducción de imágenes cambian las características de la imagen en dominio original a un dominio objetivo. Proponemos la traducción de vídeo estocástico (SVIT, por sus siglas en inglés), un método que es capaz de producir imágenes realistas en diferentes dominios. En adición, consideramos la información temporal para hacer un modelamiento que sea consistente en las dimensiones espaciales y temporales al mismo tiempo. Nuestros resultados en traducción de imágenes resultan ser más realistas comparados con los métodos del estado del arte.