Estimación de parámetros articulatorios a partir de la señal de voz

La inversión articulatoria, si existiese una manera práctica de realizarla, tendría varias aplicaciones, por ejemplo: en aplicaciones de terapia del habla y sistemas de aprendizaje de idiomas para el entrenamiento de la pronunciación, para reducir los problemas causados por la coarticulación y el ru...

Full description

Autores:
Sepúlveda, Alexander
Tipo de recurso:
Doctoral thesis
Fecha de publicación:
2012
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/11803
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/11803
http://bdigital.unal.edu.co/9344/
Palabra clave:
0 Generalidades / Computer science, information and general works
61 Ciencias médicas; Medicina / Medicine and health
62 Ingeniería y operaciones afines / Engineering
Inversión articulatoria
modelado del mecanismo de producción del habla
transformada ondita
parámetros acústicos
sintetizador articulatorio
modelos de mezclas gaussianas
redes neuronales
articulatory inversion
speech production modeling
wavelet transform
articulatory parameters
articulatory synthesizer
Gaussian mixture models
artificial neural networks
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
Description
Summary:La inversión articulatoria, si existiese una manera práctica de realizarla, tendría varias aplicaciones, por ejemplo: en aplicaciones de terapia del habla y sistemas de aprendizaje de idiomas para el entrenamiento de la pronunciación, para reducir los problemas causados por la coarticulación y el ruido en sistemas automáticos de reconocimiento de voz, entre otras aplicaciones. Debido al rango de aplicaciones de la inversión articulatoria, esta ha cautivado la atención de científicos del habla durante varias décadas. Sin embargo, los datos articulatorios reales disponibles eran escasos. Por otra parte, las tecnologías como la articulografía electromagnética han hecho que la medición de la articulación humana durante el habla sea más accesible. Con el fin de aprovechar la disponibilidad mediciones del mecanismo articulatorio varios métodos han sido probados. Por ejemplo, redes neuronales artificiales, modelos ocultos de Markov, modelos de mezclas gaussianas, entre otros. Pero, poca atención se le ha prestado a la influencia del tipo de características acústicas utilizadas en estos métodos. La presente tesis tiene por objetivo principal el mostrar la importancia que tiene la selección de los parámetros acústicos, los cuales son usados para representar la voz, en tareas de inversión articulatoria; es decir, en tareas relacionadas con la inferencia de la posición de los articuladores durante la producción de la misma señal de voz. Dentro de los parámatros acústicos analizados se mencionan: los formantes, representación de tiempo-frecuencia por medio de la transformada wavelet y mediante banco de filtros en la escala Mel. Para el caso de las representaciones de tiempo-frecuencia se buscan aquellas características localizadas en tiempo y frecuencia que permiten una estimación más precisa de la forma del tracto vocal. A modo de resultado se encuentra que existen dos acciones que mejoran la estimación de la posición de los articuladores, a saber: 1) usar caractarísticas de tiempo-frecuencia que desde el punto de vista de la correlación estadística no-lineal están mejor relacionadas con las trayectorias de los movimientos articulatorios; y, 2) incluir dentro del conjunto de representación de la señal de voz parámetros intrínsecamente relacionados con las frecuencias de resonancia del tracto vocal. Hasta donde se conoce, aún no se ha desarrollado un sistema para la inversión articulatoria independiente del hablante. Sin embargo, en el presente trabajo se muestra que los mismos mapas de características relevantes de tiempo-frecuencia pueden ser utilizadas para la realización de la inversión articulatoria independiente del hablante sobre consonantes fricativas. A modo de trabajo futuro se plantea desarrollar un sistema de inversión articulatoria independiente del hablante basado en mapas de relevancia, los cuales serían obtenidos para varias categorías fonéticas. Se tiene planeado, una vez hecho esto, utilizar los resultados para el desarrollo de sistemas de terapia de la voz y en el aprendizaje de idiomas.