Stochastic characterization of nonlinear dynamics for the automatic evaluation of voice quality

El diagnóstico y tratamiento clínico de patologías laríngeas es en la actualidad un problema de gran interés para una rama de la investigación relacionada con el tratamiento digital del habla. El objetivo principal de la investigación en este campo consiste en el desarrollo de sistemas de diagnóstic...

Full description

Autores:: Arias Londoño, Julián David

Tipo de recurso:: Doctoral thesis

Fecha de publicación:: 2010

Institución:: Universidad Nacional de Colombia

Repositorio:: Universidad Nacional de Colombia

Idioma:: spa

Description
Summary:	El diagnóstico y tratamiento clínico de patologías laríngeas es en la actualidad un problema de gran interés para una rama de la investigación relacionada con el tratamiento digital del habla. El objetivo principal de la investigación en este campo consiste en el desarrollo de sistemas de diagnóstico asistido, que posibiliten la evaluación objetiva de un paciente y posteriormente mejoren el diagnóstico y tratamiento clínico que a él se le da. Adicionalmente, este tipo de sistemas ayudan a la detección temprana de enfermedades que, de otra forma, podrían permanecer ocultas durante un tiempo crucial para que su tratamiento sea eficaz. La mayor parte de los estudios que se han llevado a cabo en este campo están basados en métodos lineales de caracterización de la señal de voz. Varias de dichas características han demostrado contener información de gran utilidad para el problema de detección. Sin embargo, diversos estudios han mostrado que en el proceso de producción de voz se presentan diferentes fenómenos físicos con características no lineales, que no pueden ser caracterizados por métodos convencionales basados en técnicas lineales. Esta tesis doctoral está enfocada en el análisis y caracterización de componentes no lineales en señales de voz, a partir de técnicas de embebimiento por retardo de tiempo para la reconstrucción del espacio de estados. Se estudia su empleo como herramienta complementaria para la extracción de información en la detección automática de voces patológicas y en la medición automática de niveles de calidad de voz tomando como referencia la escala de medida GRBAS. El análisis no lineal de señales de voz es particularmente más complejo que el de otro tipo de señales, debido al hecho de que durante el proceso de producción de la voz se presentan inherentemente fenómenos de turbulencia, los cuales adicionan componentes aleatorias a las señales de voz que, por definición, no están consideradas por los métodos convencionales de análisis no lineal. Por lo tanto, en este trabajo se estudian medidas convencionalmente usadas en el análisis de dinámica no lineal, tanto como diversas medidas de complejidad basadas en teoría de la información, que tienen en cuenta no sólo las componentes no lineales, sino también componentes estocásticas presentes en las series de tiempo. De igual manera se proponen tres medidas de complejidad basadas en modelos estocásticos que permiten una mejor caracterización del espacio de estados y proporcionan información complementaria útil para el sistema de detección. El trabajo estudia distintos esquemas de clasificación, tanto para el problema de detección de patologías de voz como para el problema multi-clase de clasificación de una voz dentro de la escala de calidad GRBAS. Adicionalmente, considera el problema de combinación de información a partir de métodos no lineales, con medidas de ruido y cepstrales, estableciendo la relevancia real que tienen las medidas de complejidad para mejorar la capacidad discriminante de los sistemas de detección automática de patologías de voz, y proporciona una metodología basada en técnicas de combinación de clasificadores con resultados que alcanzan un 98.23%±0.001 de acierto en el primer caso y un 63.56% de acierto para la valoración automática de la calidad de la voz de acuerdo con la escala GRBAS. Los estudios realizados muestran que el error de detección de voces patológicas se reduce en un 66.67%, en comparación con los resultados obtenidos empleando únicamente medidas de ruido y parámetros cepstrales; mientras que el error de medición de la escala GRBAS se redujo en un 13.69% realizando una comparación similar a la anterior. Estos resultados superan los mejores resultados encontrados actualmente en el estado del arte / Abstract : Diagnostic and clinical treatment of laryngeal pathologies is currently a problem of great interest for a part of the scientific community related to the digital processing of speech. The main objective in this field of research is the development of computer-aided medical diagnostic tools, enabling an objective assessment of a patient and subsequently improving the diagnosis and clinical treatment given to him/her. Additionally, such systems help to the early detection of diseases that otherwise could remain hidden during a crucial time for a effective treatment. Most of the studies that have been conducted in this field are based on linear methods for characterizing the speech signal. Several of the features extracted from such methods have proved to contain useful information for the detection problem. However, several studies have shown that in the speech production process there are different physical phenomena with nonlinear characteristics, which are not characterized by conventional methods based on linear techniques. This thesis is focused on the analysis and characterization of nonlinear components present in speech signals, using state space reconstruction techniques based on the time delay embedding theorem. Their use have been studied as complementary tools to extract information for the automatic detection and grading of pathological voices, and for the automatic assessment of voices according to the GRBAS quality scale. Nonlinear analysis of voice signals is particularly more complex than using other kind of signals, given that during the voice production process there are inherent turbulent events that add random components to the voice signals which, by definition, are not considered by conventional methods of nonlinear analysis. Therefore, this work examines measures conventionally used for the analysis of nonlinear dynamics, as well as various measures of complexity based on information theory which take into account not only the nonlinear components, but also the stochastic components present in time series. Furthermore, there have been proposed three measures of complexity based on stochastic models that allow a better characterization of the state space and provide useful information for the detection system. Moreover, this work study different classification schemes for both the problem of voice pathology detection and the multi-class classification problem according to the GRBAS quality scale. Additionally, it considers the problem of fusing information from non-linear methods, with noise and cepstral measures, establishing the real capabilities of complexity measures to improve the discrimination of an automatic detection of voice disorders system. Moreover, it provides a methodology fusing classifiers, yielding a 98.23% ± 0.01 of accuracy in the first case and a 63.56% of correct detection for the automatic grading of voice quality according to GRBAS scale. The studies performed showed that the error of the automatic detection pathological voices is reduced a 66.67% in comparison to the error obtained using more classic parameterization approaches based on noise measures and cepstral coefficients. In addition, the error of the voice quality gradings according to the GRBAS scale was reduced a 13.69% comparing to the performance obtained using classic parameterization approaches. These results outperform the best results currently found in the state of the art.

Stochastic characterization of nonlinear dynamics for the automatic evaluation of voice quality

Publicaciones similares