Estimación de parámetros articulatorios a partir de la señal de voz

La inversión articulatoria, si existiese una manera práctica de realizarla, tendría varias aplicaciones, por ejemplo: en aplicaciones de terapia del habla y sistemas de aprendizaje de idiomas para el entrenamiento de la pronunciación, para reducir los problemas causados por la coarticulación y el ru...

Full description

Autores:
Sepúlveda, Alexander
Tipo de recurso:
Doctoral thesis
Fecha de publicación:
2012
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/11803
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/11803
http://bdigital.unal.edu.co/9344/
Palabra clave:
0 Generalidades / Computer science, information and general works
61 Ciencias médicas; Medicina / Medicine and health
62 Ingeniería y operaciones afines / Engineering
Inversión articulatoria
modelado del mecanismo de producción del habla
transformada ondita
parámetros acústicos
sintetizador articulatorio
modelos de mezclas gaussianas
redes neuronales
articulatory inversion
speech production modeling
wavelet transform
articulatory parameters
articulatory synthesizer
Gaussian mixture models
artificial neural networks
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
id UNACIONAL2_f927205293e5006b6c3104f54369d2a7
oai_identifier_str oai:repositorio.unal.edu.co:unal/11803
network_acronym_str UNACIONAL2
network_name_str Universidad Nacional de Colombia
repository_id_str
dc.title.spa.fl_str_mv Estimación de parámetros articulatorios a partir de la señal de voz
title Estimación de parámetros articulatorios a partir de la señal de voz
spellingShingle Estimación de parámetros articulatorios a partir de la señal de voz
0 Generalidades / Computer science, information and general works
61 Ciencias médicas; Medicina / Medicine and health
62 Ingeniería y operaciones afines / Engineering
Inversión articulatoria
modelado del mecanismo de producción del habla
transformada ondita
parámetros acústicos
sintetizador articulatorio
modelos de mezclas gaussianas
redes neuronales
articulatory inversion
speech production modeling
wavelet transform
articulatory parameters
articulatory synthesizer
Gaussian mixture models
artificial neural networks
title_short Estimación de parámetros articulatorios a partir de la señal de voz
title_full Estimación de parámetros articulatorios a partir de la señal de voz
title_fullStr Estimación de parámetros articulatorios a partir de la señal de voz
title_full_unstemmed Estimación de parámetros articulatorios a partir de la señal de voz
title_sort Estimación de parámetros articulatorios a partir de la señal de voz
dc.creator.fl_str_mv Sepúlveda, Alexander
dc.contributor.advisor.spa.fl_str_mv Castellanos Domínguez, César Germán (Thesis advisor)
dc.contributor.author.spa.fl_str_mv Sepúlveda, Alexander
dc.subject.ddc.spa.fl_str_mv 0 Generalidades / Computer science, information and general works
61 Ciencias médicas; Medicina / Medicine and health
62 Ingeniería y operaciones afines / Engineering
topic 0 Generalidades / Computer science, information and general works
61 Ciencias médicas; Medicina / Medicine and health
62 Ingeniería y operaciones afines / Engineering
Inversión articulatoria
modelado del mecanismo de producción del habla
transformada ondita
parámetros acústicos
sintetizador articulatorio
modelos de mezclas gaussianas
redes neuronales
articulatory inversion
speech production modeling
wavelet transform
articulatory parameters
articulatory synthesizer
Gaussian mixture models
artificial neural networks
dc.subject.proposal.spa.fl_str_mv Inversión articulatoria
modelado del mecanismo de producción del habla
transformada ondita
parámetros acústicos
sintetizador articulatorio
modelos de mezclas gaussianas
redes neuronales
articulatory inversion
speech production modeling
wavelet transform
articulatory parameters
articulatory synthesizer
Gaussian mixture models
artificial neural networks
description La inversión articulatoria, si existiese una manera práctica de realizarla, tendría varias aplicaciones, por ejemplo: en aplicaciones de terapia del habla y sistemas de aprendizaje de idiomas para el entrenamiento de la pronunciación, para reducir los problemas causados por la coarticulación y el ruido en sistemas automáticos de reconocimiento de voz, entre otras aplicaciones. Debido al rango de aplicaciones de la inversión articulatoria, esta ha cautivado la atención de científicos del habla durante varias décadas. Sin embargo, los datos articulatorios reales disponibles eran escasos. Por otra parte, las tecnologías como la articulografía electromagnética han hecho que la medición de la articulación humana durante el habla sea más accesible. Con el fin de aprovechar la disponibilidad mediciones del mecanismo articulatorio varios métodos han sido probados. Por ejemplo, redes neuronales artificiales, modelos ocultos de Markov, modelos de mezclas gaussianas, entre otros. Pero, poca atención se le ha prestado a la influencia del tipo de características acústicas utilizadas en estos métodos. La presente tesis tiene por objetivo principal el mostrar la importancia que tiene la selección de los parámetros acústicos, los cuales son usados para representar la voz, en tareas de inversión articulatoria; es decir, en tareas relacionadas con la inferencia de la posición de los articuladores durante la producción de la misma señal de voz. Dentro de los parámatros acústicos analizados se mencionan: los formantes, representación de tiempo-frecuencia por medio de la transformada wavelet y mediante banco de filtros en la escala Mel. Para el caso de las representaciones de tiempo-frecuencia se buscan aquellas características localizadas en tiempo y frecuencia que permiten una estimación más precisa de la forma del tracto vocal. A modo de resultado se encuentra que existen dos acciones que mejoran la estimación de la posición de los articuladores, a saber: 1) usar caractarísticas de tiempo-frecuencia que desde el punto de vista de la correlación estadística no-lineal están mejor relacionadas con las trayectorias de los movimientos articulatorios; y, 2) incluir dentro del conjunto de representación de la señal de voz parámetros intrínsecamente relacionados con las frecuencias de resonancia del tracto vocal. Hasta donde se conoce, aún no se ha desarrollado un sistema para la inversión articulatoria independiente del hablante. Sin embargo, en el presente trabajo se muestra que los mismos mapas de características relevantes de tiempo-frecuencia pueden ser utilizadas para la realización de la inversión articulatoria independiente del hablante sobre consonantes fricativas. A modo de trabajo futuro se plantea desarrollar un sistema de inversión articulatoria independiente del hablante basado en mapas de relevancia, los cuales serían obtenidos para varias categorías fonéticas. Se tiene planeado, una vez hecho esto, utilizar los resultados para el desarrollo de sistemas de terapia de la voz y en el aprendizaje de idiomas.
publishDate 2012
dc.date.issued.spa.fl_str_mv 2012
dc.date.accessioned.spa.fl_str_mv 2019-06-25T00:31:37Z
dc.date.available.spa.fl_str_mv 2019-06-25T00:31:37Z
dc.type.spa.fl_str_mv Trabajo de grado - Doctorado
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/doctoralThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_db06
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TD
format http://purl.org/coar/resource_type/c_db06
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv https://repositorio.unal.edu.co/handle/unal/11803
dc.identifier.eprints.spa.fl_str_mv http://bdigital.unal.edu.co/9344/
url https://repositorio.unal.edu.co/handle/unal/11803
http://bdigital.unal.edu.co/9344/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.ispartof.spa.fl_str_mv Universidad Nacional de Colombia Sede Manizales Facultad de Ingeniería y Arquitectura Departamento de Ingeniería Eléctrica, Electrónica y Computación
Departamento de Ingeniería Eléctrica, Electrónica y Computación
dc.relation.references.spa.fl_str_mv Sepúlveda, Alexander (2012) Estimación de parámetros articulatorios a partir de la señal de voz. Doctorado thesis, Universidad Nacional de Colombia - Sede Manizales.
dc.rights.spa.fl_str_mv Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial 4.0 Internacional
Derechos reservados - Universidad Nacional de Colombia
http://creativecommons.org/licenses/by-nc/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
institution Universidad Nacional de Colombia
bitstream.url.fl_str_mv https://repositorio.unal.edu.co/bitstream/unal/11803/1/7906511.2012.pdf
https://repositorio.unal.edu.co/bitstream/unal/11803/2/7906511.2012.pdf.jpg
bitstream.checksum.fl_str_mv e27a3224e0ea20a8e0823a7ad9814e05
973674cb014e54408298d9768d423f13
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv repositorio_nal@unal.edu.co
_version_ 1806885969402527744
spelling Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Castellanos Domínguez, César Germán (Thesis advisor)c792a029-43aa-4eb1-ac01-0b8ac24a537e-1Sepúlveda, Alexander6ffec852-b6a0-4dc6-8f1a-06a48e5069523002019-06-25T00:31:37Z2019-06-25T00:31:37Z2012https://repositorio.unal.edu.co/handle/unal/11803http://bdigital.unal.edu.co/9344/La inversión articulatoria, si existiese una manera práctica de realizarla, tendría varias aplicaciones, por ejemplo: en aplicaciones de terapia del habla y sistemas de aprendizaje de idiomas para el entrenamiento de la pronunciación, para reducir los problemas causados por la coarticulación y el ruido en sistemas automáticos de reconocimiento de voz, entre otras aplicaciones. Debido al rango de aplicaciones de la inversión articulatoria, esta ha cautivado la atención de científicos del habla durante varias décadas. Sin embargo, los datos articulatorios reales disponibles eran escasos. Por otra parte, las tecnologías como la articulografía electromagnética han hecho que la medición de la articulación humana durante el habla sea más accesible. Con el fin de aprovechar la disponibilidad mediciones del mecanismo articulatorio varios métodos han sido probados. Por ejemplo, redes neuronales artificiales, modelos ocultos de Markov, modelos de mezclas gaussianas, entre otros. Pero, poca atención se le ha prestado a la influencia del tipo de características acústicas utilizadas en estos métodos. La presente tesis tiene por objetivo principal el mostrar la importancia que tiene la selección de los parámetros acústicos, los cuales son usados para representar la voz, en tareas de inversión articulatoria; es decir, en tareas relacionadas con la inferencia de la posición de los articuladores durante la producción de la misma señal de voz. Dentro de los parámatros acústicos analizados se mencionan: los formantes, representación de tiempo-frecuencia por medio de la transformada wavelet y mediante banco de filtros en la escala Mel. Para el caso de las representaciones de tiempo-frecuencia se buscan aquellas características localizadas en tiempo y frecuencia que permiten una estimación más precisa de la forma del tracto vocal. A modo de resultado se encuentra que existen dos acciones que mejoran la estimación de la posición de los articuladores, a saber: 1) usar caractarísticas de tiempo-frecuencia que desde el punto de vista de la correlación estadística no-lineal están mejor relacionadas con las trayectorias de los movimientos articulatorios; y, 2) incluir dentro del conjunto de representación de la señal de voz parámetros intrínsecamente relacionados con las frecuencias de resonancia del tracto vocal. Hasta donde se conoce, aún no se ha desarrollado un sistema para la inversión articulatoria independiente del hablante. Sin embargo, en el presente trabajo se muestra que los mismos mapas de características relevantes de tiempo-frecuencia pueden ser utilizadas para la realización de la inversión articulatoria independiente del hablante sobre consonantes fricativas. A modo de trabajo futuro se plantea desarrollar un sistema de inversión articulatoria independiente del hablante basado en mapas de relevancia, los cuales serían obtenidos para varias categorías fonéticas. Se tiene planeado, una vez hecho esto, utilizar los resultados para el desarrollo de sistemas de terapia de la voz y en el aprendizaje de idiomas.Abstract: The articulatory inversion, if it could be done in a practical way, would have several applications; namely: in speech therapy applications and language learning systems for training pronunciation; to reduce problems caused by coarticulation and noise in automatic speech recognition systems; among other applications. Due to the range of applications of articulatory inversion, it has captivated the attention of speech scientist during several decades. However, the available human articulatory data were scarce. On the other hand, technologies such as electromagnetic articulography have made the measurement of human articulation during speech be more accessible. In order to take advantage of human articulation measurements, several methods have been tested; e.g., artificial neural networks, hidden Markov models, Gaussian mixture models, among others. But, less attention has been put into the influence of the kind of acoustic features used in those methods. The aim of this thesis is to show the importance of selecting the acoustic input features in those tasks related to the inference of articulators movements during the speech signal production. Analyzed parameters include: the formants, time-frequency representation using the wavelet transform as well as time-frequency representation using filter banks in Mel scale. In the case of the time-frequency representations, those characteristics localized in time and frequency that allow a more accurate estimate of the vocal tract shape are considered. It is found that there exist some actions that improve the performance of acoustic to articulatory mapping systems, namely: 1) using those time-frequency features best related to articulators movement from the perspective of non-linear statistical correlation, which we call maps of relevant time-frequency features; and, 2) including features intrinsically related to the vocal-tract resonance frequencies in the input set of features representing the speech signal. Additionally, in case of fricative sounds, it is shown in present study that the maps of relevant time-frequency features are also useful for speaker-independient tasks; then, the same proposed approach could be used for the further development of a multi-speaker acoustic-to-articulatory mapping. Once obtained the multispeaker articulatory inversion system, it could be used in speech therapy related tasks, particularly in speech training for the cleft palate children. Another potential application are computer-based language learning systemsDoctoradoapplication/pdfspaUniversidad Nacional de Colombia Sede Manizales Facultad de Ingeniería y Arquitectura Departamento de Ingeniería Eléctrica, Electrónica y ComputaciónDepartamento de Ingeniería Eléctrica, Electrónica y ComputaciónSepúlveda, Alexander (2012) Estimación de parámetros articulatorios a partir de la señal de voz. Doctorado thesis, Universidad Nacional de Colombia - Sede Manizales.0 Generalidades / Computer science, information and general works61 Ciencias médicas; Medicina / Medicine and health62 Ingeniería y operaciones afines / EngineeringInversión articulatoriamodelado del mecanismo de producción del hablatransformada onditaparámetros acústicossintetizador articulatoriomodelos de mezclas gaussianasredes neuronalesarticulatory inversionspeech production modelingwavelet transformarticulatory parametersarticulatory synthesizerGaussian mixture modelsartificial neural networksEstimación de parámetros articulatorios a partir de la señal de vozTrabajo de grado - Doctoradoinfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_db06Texthttp://purl.org/redcol/resource_type/TDORIGINAL7906511.2012.pdfapplication/pdf3102377https://repositorio.unal.edu.co/bitstream/unal/11803/1/7906511.2012.pdfe27a3224e0ea20a8e0823a7ad9814e05MD51THUMBNAIL7906511.2012.pdf.jpg7906511.2012.pdf.jpgGenerated Thumbnailimage/jpeg4005https://repositorio.unal.edu.co/bitstream/unal/11803/2/7906511.2012.pdf.jpg973674cb014e54408298d9768d423f13MD52unal/11803oai:repositorio.unal.edu.co:unal/118032022-09-28 23:05:54.097Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co