Desarrollo de un sistema de manipulación de un robot a través de movimientos de la boca y de comandos de voz
En años recientes, el reconocimiento audio-visual del habla ha surgido como un campo activo de investigación, debido a los avances en reconocimiento de patrones, procesamiento de señales y visión por computador. Su objetivo final es permitir la comunicación hombre-máquina usando la voz, teniendo en...
- Autores:
-
Ceballos Arias, Alexander
- Tipo de recurso:
- Fecha de publicación:
- 2009
- Institución:
- Universidad Nacional de Colombia
- Repositorio:
- Universidad Nacional de Colombia
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unal.edu.co:unal/7112
- Palabra clave:
- 0 Generalidades / Computer science, information and general works
62 Ingeniería y operaciones afines / Engineering
Reconocimiento automático de la voz, Sistemas de procesamiento de la voz, Reconocimiento de patrones, Procesamiento de señales, Visión por computador, Comunicación hombre-máquina computador.
- Rights
- openAccess
- License
- Atribución-NoComercial 4.0 Internacional
id |
UNACIONAL2_70953b8f9cf87d455e1fa4bab61cb626 |
---|---|
oai_identifier_str |
oai:repositorio.unal.edu.co:unal/7112 |
network_acronym_str |
UNACIONAL2 |
network_name_str |
Universidad Nacional de Colombia |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Desarrollo de un sistema de manipulación de un robot a través de movimientos de la boca y de comandos de voz |
title |
Desarrollo de un sistema de manipulación de un robot a través de movimientos de la boca y de comandos de voz |
spellingShingle |
Desarrollo de un sistema de manipulación de un robot a través de movimientos de la boca y de comandos de voz 0 Generalidades / Computer science, information and general works 62 Ingeniería y operaciones afines / Engineering Reconocimiento automático de la voz, Sistemas de procesamiento de la voz, Reconocimiento de patrones, Procesamiento de señales, Visión por computador, Comunicación hombre-máquina computador. |
title_short |
Desarrollo de un sistema de manipulación de un robot a través de movimientos de la boca y de comandos de voz |
title_full |
Desarrollo de un sistema de manipulación de un robot a través de movimientos de la boca y de comandos de voz |
title_fullStr |
Desarrollo de un sistema de manipulación de un robot a través de movimientos de la boca y de comandos de voz |
title_full_unstemmed |
Desarrollo de un sistema de manipulación de un robot a través de movimientos de la boca y de comandos de voz |
title_sort |
Desarrollo de un sistema de manipulación de un robot a través de movimientos de la boca y de comandos de voz |
dc.creator.fl_str_mv |
Ceballos Arias, Alexander |
dc.contributor.advisor.spa.fl_str_mv |
Prieto Ortíz, Flavio Augusto (Thesis advisor) Gómez Mendoza , Juan Bernardo (Thesis advisor) |
dc.contributor.author.spa.fl_str_mv |
Ceballos Arias, Alexander |
dc.subject.ddc.spa.fl_str_mv |
0 Generalidades / Computer science, information and general works 62 Ingeniería y operaciones afines / Engineering |
topic |
0 Generalidades / Computer science, information and general works 62 Ingeniería y operaciones afines / Engineering Reconocimiento automático de la voz, Sistemas de procesamiento de la voz, Reconocimiento de patrones, Procesamiento de señales, Visión por computador, Comunicación hombre-máquina computador. |
dc.subject.proposal.spa.fl_str_mv |
Reconocimiento automático de la voz, Sistemas de procesamiento de la voz, Reconocimiento de patrones, Procesamiento de señales, Visión por computador, Comunicación hombre-máquina computador. |
description |
En años recientes, el reconocimiento audio-visual del habla ha surgido como un campo activo de investigación, debido a los avances en reconocimiento de patrones, procesamiento de señales y visión por computador. Su objetivo final es permitir la comunicación hombre-máquina usando la voz, teniendo en cuenta la información visual contenida en la señal de habla audio-visual, para lidiar con las dificultades de un ambiente ruidoso, o para tratar de reconocer las emociones exhibidas por el locutor. En este documento se presenta un sistema de reconocimiento automático de comandos usando información audio-visual. Debido a que este trabajo se enmarca en el proyecto “Segmentación y Clasificación Automática de Posturas Labiales y Comandos de Voz para el Control de un Robot Laparoscópico”, el sistema pretende controlar un robot, en particular el robot laparoscópico da Vinci. Se emplean los modelos ocultos de Markov como técnica de reconocimiento del habla, utilizando Hidden Markov Model Toolkit como herramienta computacional. La señal de audio se parametriza usando los coeficientes cepstrales en frecuencia de Mel, mientras que para extraer la información visual del habla, se usan características basadas en los puntos que definen el contorno externo de la boca según el estándar MPEG-4. Se hace necesario hacer seguimiento preciso de la boca sobre secuencias de video. La complejidad de forma, textura y color de la boca, y los cambios de iluminación y fondos de los posibles escenarios, hacen que este sea aún un problema abierto. En este documento se propone un algoritmo para el seguimiento del contorno externo de la boca, sin utilizar marcadores o alguna clase de maquillaje para resaltar los labios, basado en apariencia y en restricciones morfológicas definidas en el estándar MPEG-4 / Abstract: In recent years audio-visual speech recognition has emerged as an active field of research thanks to advances in pattern recognition, signal processing and machine vision. Its ultimate goal is to allow human-computer communication using voice, taking into account the visual information contained in the audio-visual speech signal, whether to cope with the difficulties of a noisy environment, or when trying to recognize the emotion exhibited by the speaker. This document presents a command’s automatic recognition system using audio-visual information. Due to the fact that this work is part of the project “Automatic Segmentation and Classification of Lip Postures and Voice Commands in order to Control a Laparoscopic Robot”, the system is expected to control a robot, in particular the laparoscopic robot da Vinci. Hidden Markov Models have been used as technique for speech recognition using Hidden Markov Model Toolkit as computational tool. The audio signal is treated using the Mel Frequency Cepstral Coefficients parametrization method. Besides, features based on the points that define the mouth’s outer contour according to the MPEG-4 standar are used in order to extract the visual speech information. It becomes necessary to deal with lip tracking in video sequences. Lip tracking is still an open issue in terms of research due to the mouth’s shape, texture and color complexity, the illumination changes and the background scenery. In this document an outer lip tracking algorithm based in shape and restrictions given in standard MPEG-4 is proposed. The video sequence does not have markers or any kind of makeover in order to highlight the lips. The algorithm is strong in presence of beard, skin tone and image’s quality. |
publishDate |
2009 |
dc.date.issued.spa.fl_str_mv |
2009 |
dc.date.accessioned.spa.fl_str_mv |
2019-06-24T16:29:20Z |
dc.date.available.spa.fl_str_mv |
2019-06-24T16:29:20Z |
dc.type.spa.fl_str_mv |
Trabajo de grado - Maestría |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/masterThesis |
dc.type.version.spa.fl_str_mv |
info:eu-repo/semantics/acceptedVersion |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/TM |
status_str |
acceptedVersion |
dc.identifier.uri.none.fl_str_mv |
https://repositorio.unal.edu.co/handle/unal/7112 |
dc.identifier.eprints.spa.fl_str_mv |
http://bdigital.unal.edu.co/3416/ |
url |
https://repositorio.unal.edu.co/handle/unal/7112 http://bdigital.unal.edu.co/3416/ |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.spa.fl_str_mv |
Universidad Nacional de Colombia Sede Manizales Facultad de Ingeniería y Arquitectura Departamento de Ingeniería Eléctrica, Electrónica y Computación Departamento de Ingeniería Eléctrica, Electrónica y Computación |
dc.relation.references.spa.fl_str_mv |
Ceballos Arias, Alexander (2009) Desarrollo de un sistema de manipulación de un robot a través de movimientos de la boca y de comandos de voz. Maestría thesis, Universidad Nacional de Colombia - Sede Manizales. |
dc.rights.spa.fl_str_mv |
Derechos reservados - Universidad Nacional de Colombia |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.license.spa.fl_str_mv |
Atribución-NoComercial 4.0 Internacional |
dc.rights.uri.spa.fl_str_mv |
http://creativecommons.org/licenses/by-nc/4.0/ |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Atribución-NoComercial 4.0 Internacional Derechos reservados - Universidad Nacional de Colombia http://creativecommons.org/licenses/by-nc/4.0/ http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
institution |
Universidad Nacional de Colombia |
bitstream.url.fl_str_mv |
https://repositorio.unal.edu.co/bitstream/unal/7112/1/alexanderceballosarias.2009.pdf https://repositorio.unal.edu.co/bitstream/unal/7112/2/alexanderceballosarias.2009.pdf.jpg |
bitstream.checksum.fl_str_mv |
603ecca28959a6332d6c8310592975fe b490c3e2c7ab66d49b1e58d1e61730dd |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional Universidad Nacional de Colombia |
repository.mail.fl_str_mv |
repositorio_nal@unal.edu.co |
_version_ |
1814089634856042496 |
spelling |
Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Prieto Ortíz, Flavio Augusto (Thesis advisor)8ee72a99-b1a8-481f-9f38-7d50974e18cc-1Gómez Mendoza , Juan Bernardo (Thesis advisor)685ecdc6-fd4d-45d4-a645-31ea4bc8adda-1Ceballos Arias, Alexander19c82a7d-22d3-4fb9-b0cd-eba997d46eb63002019-06-24T16:29:20Z2019-06-24T16:29:20Z2009https://repositorio.unal.edu.co/handle/unal/7112http://bdigital.unal.edu.co/3416/En años recientes, el reconocimiento audio-visual del habla ha surgido como un campo activo de investigación, debido a los avances en reconocimiento de patrones, procesamiento de señales y visión por computador. Su objetivo final es permitir la comunicación hombre-máquina usando la voz, teniendo en cuenta la información visual contenida en la señal de habla audio-visual, para lidiar con las dificultades de un ambiente ruidoso, o para tratar de reconocer las emociones exhibidas por el locutor. En este documento se presenta un sistema de reconocimiento automático de comandos usando información audio-visual. Debido a que este trabajo se enmarca en el proyecto “Segmentación y Clasificación Automática de Posturas Labiales y Comandos de Voz para el Control de un Robot Laparoscópico”, el sistema pretende controlar un robot, en particular el robot laparoscópico da Vinci. Se emplean los modelos ocultos de Markov como técnica de reconocimiento del habla, utilizando Hidden Markov Model Toolkit como herramienta computacional. La señal de audio se parametriza usando los coeficientes cepstrales en frecuencia de Mel, mientras que para extraer la información visual del habla, se usan características basadas en los puntos que definen el contorno externo de la boca según el estándar MPEG-4. Se hace necesario hacer seguimiento preciso de la boca sobre secuencias de video. La complejidad de forma, textura y color de la boca, y los cambios de iluminación y fondos de los posibles escenarios, hacen que este sea aún un problema abierto. En este documento se propone un algoritmo para el seguimiento del contorno externo de la boca, sin utilizar marcadores o alguna clase de maquillaje para resaltar los labios, basado en apariencia y en restricciones morfológicas definidas en el estándar MPEG-4 / Abstract: In recent years audio-visual speech recognition has emerged as an active field of research thanks to advances in pattern recognition, signal processing and machine vision. Its ultimate goal is to allow human-computer communication using voice, taking into account the visual information contained in the audio-visual speech signal, whether to cope with the difficulties of a noisy environment, or when trying to recognize the emotion exhibited by the speaker. This document presents a command’s automatic recognition system using audio-visual information. Due to the fact that this work is part of the project “Automatic Segmentation and Classification of Lip Postures and Voice Commands in order to Control a Laparoscopic Robot”, the system is expected to control a robot, in particular the laparoscopic robot da Vinci. Hidden Markov Models have been used as technique for speech recognition using Hidden Markov Model Toolkit as computational tool. The audio signal is treated using the Mel Frequency Cepstral Coefficients parametrization method. Besides, features based on the points that define the mouth’s outer contour according to the MPEG-4 standar are used in order to extract the visual speech information. It becomes necessary to deal with lip tracking in video sequences. Lip tracking is still an open issue in terms of research due to the mouth’s shape, texture and color complexity, the illumination changes and the background scenery. In this document an outer lip tracking algorithm based in shape and restrictions given in standard MPEG-4 is proposed. The video sequence does not have markers or any kind of makeover in order to highlight the lips. The algorithm is strong in presence of beard, skin tone and image’s quality.Maestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Manizales Facultad de Ingeniería y Arquitectura Departamento de Ingeniería Eléctrica, Electrónica y ComputaciónDepartamento de Ingeniería Eléctrica, Electrónica y ComputaciónCeballos Arias, Alexander (2009) Desarrollo de un sistema de manipulación de un robot a través de movimientos de la boca y de comandos de voz. Maestría thesis, Universidad Nacional de Colombia - Sede Manizales.0 Generalidades / Computer science, information and general works62 Ingeniería y operaciones afines / EngineeringReconocimiento automático de la voz, Sistemas de procesamiento de la voz, Reconocimiento de patrones, Procesamiento de señales, Visión por computador, Comunicación hombre-máquina computador.Desarrollo de un sistema de manipulación de un robot a través de movimientos de la boca y de comandos de vozTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMORIGINALalexanderceballosarias.2009.pdfapplication/pdf2289873https://repositorio.unal.edu.co/bitstream/unal/7112/1/alexanderceballosarias.2009.pdf603ecca28959a6332d6c8310592975feMD51THUMBNAILalexanderceballosarias.2009.pdf.jpgalexanderceballosarias.2009.pdf.jpgGenerated Thumbnailimage/jpeg4474https://repositorio.unal.edu.co/bitstream/unal/7112/2/alexanderceballosarias.2009.pdf.jpgb490c3e2c7ab66d49b1e58d1e61730ddMD52unal/7112oai:repositorio.unal.edu.co:unal/71122022-09-05 23:08:41.089Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co |