Stochastic characterization of nonlinear dynamics for the automatic evaluation of voice quality

El diagnóstico y tratamiento clínico de patologías laríngeas es en la actualidad un problema de gran interés para una rama de la investigación relacionada con el tratamiento digital del habla. El objetivo principal de la investigación en este campo consiste en el desarrollo de sistemas de diagnóstic...

Full description

Autores:
Arias Londoño, Julián David
Tipo de recurso:
Doctoral thesis
Fecha de publicación:
2010
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/7283
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/7283
http://bdigital.unal.edu.co/3628/
Palabra clave:
0 Generalidades / Computer science, information and general works
51 Matemáticas / Mathematics
62 Ingeniería y operaciones afines / Engineering
Tratamiento digital del habla, Señales de voz, Técnicas de embebimiento, Calidad de voz, Análisis no lineal de señales de voz, Procesos estocásticos, Procesamiento de señales-Métodos estadísticos, Sistemas de procesamiento de la voz, Trastornos de la voz, Electrónica médica
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
id UNACIONAL2_d40e65450a29c8ce9bb56ed4c18c049b
oai_identifier_str oai:repositorio.unal.edu.co:unal/7283
network_acronym_str UNACIONAL2
network_name_str Universidad Nacional de Colombia
repository_id_str
dc.title.spa.fl_str_mv Stochastic characterization of nonlinear dynamics for the automatic evaluation of voice quality
dc.title.translated.Spa.fl_str_mv Caracterización estocástica de dinámicas no lineales para la evaluación automática de calidad de la voz
title Stochastic characterization of nonlinear dynamics for the automatic evaluation of voice quality
spellingShingle Stochastic characterization of nonlinear dynamics for the automatic evaluation of voice quality
0 Generalidades / Computer science, information and general works
51 Matemáticas / Mathematics
62 Ingeniería y operaciones afines / Engineering
Tratamiento digital del habla, Señales de voz, Técnicas de embebimiento, Calidad de voz, Análisis no lineal de señales de voz, Procesos estocásticos, Procesamiento de señales-Métodos estadísticos, Sistemas de procesamiento de la voz, Trastornos de la voz, Electrónica médica
title_short Stochastic characterization of nonlinear dynamics for the automatic evaluation of voice quality
title_full Stochastic characterization of nonlinear dynamics for the automatic evaluation of voice quality
title_fullStr Stochastic characterization of nonlinear dynamics for the automatic evaluation of voice quality
title_full_unstemmed Stochastic characterization of nonlinear dynamics for the automatic evaluation of voice quality
title_sort Stochastic characterization of nonlinear dynamics for the automatic evaluation of voice quality
dc.creator.fl_str_mv Arias Londoño, Julián David
dc.contributor.advisor.spa.fl_str_mv Godino Llorente, Juan Ignacio (Thesis advisor)
Castellanos Domínguez, César Germán (Thesis advisor)
dc.contributor.author.spa.fl_str_mv Arias Londoño, Julián David
dc.subject.ddc.spa.fl_str_mv 0 Generalidades / Computer science, information and general works
51 Matemáticas / Mathematics
62 Ingeniería y operaciones afines / Engineering
topic 0 Generalidades / Computer science, information and general works
51 Matemáticas / Mathematics
62 Ingeniería y operaciones afines / Engineering
Tratamiento digital del habla, Señales de voz, Técnicas de embebimiento, Calidad de voz, Análisis no lineal de señales de voz, Procesos estocásticos, Procesamiento de señales-Métodos estadísticos, Sistemas de procesamiento de la voz, Trastornos de la voz, Electrónica médica
dc.subject.proposal.spa.fl_str_mv Tratamiento digital del habla, Señales de voz, Técnicas de embebimiento, Calidad de voz, Análisis no lineal de señales de voz, Procesos estocásticos, Procesamiento de señales-Métodos estadísticos, Sistemas de procesamiento de la voz, Trastornos de la voz, Electrónica médica
description El diagnóstico y tratamiento clínico de patologías laríngeas es en la actualidad un problema de gran interés para una rama de la investigación relacionada con el tratamiento digital del habla. El objetivo principal de la investigación en este campo consiste en el desarrollo de sistemas de diagnóstico asistido, que posibiliten la evaluación objetiva de un paciente y posteriormente mejoren el diagnóstico y tratamiento clínico que a él se le da. Adicionalmente, este tipo de sistemas ayudan a la detección temprana de enfermedades que, de otra forma, podrían permanecer ocultas durante un tiempo crucial para que su tratamiento sea eficaz. La mayor parte de los estudios que se han llevado a cabo en este campo están basados en métodos lineales de caracterización de la señal de voz. Varias de dichas características han demostrado contener información de gran utilidad para el problema de detección. Sin embargo, diversos estudios han mostrado que en el proceso de producción de voz se presentan diferentes fenómenos físicos con características no lineales, que no pueden ser caracterizados por métodos convencionales basados en técnicas lineales. Esta tesis doctoral está enfocada en el análisis y caracterización de componentes no lineales en señales de voz, a partir de técnicas de embebimiento por retardo de tiempo para la reconstrucción del espacio de estados. Se estudia su empleo como herramienta complementaria para la extracción de información en la detección automática de voces patológicas y en la medición automática de niveles de calidad de voz tomando como referencia la escala de medida GRBAS. El análisis no lineal de señales de voz es particularmente más complejo que el de otro tipo de señales, debido al hecho de que durante el proceso de producción de la voz se presentan inherentemente fenómenos de turbulencia, los cuales adicionan componentes aleatorias a las señales de voz que, por definición, no están consideradas por los métodos convencionales de análisis no lineal. Por lo tanto, en este trabajo se estudian medidas convencionalmente usadas en el análisis de dinámica no lineal, tanto como diversas medidas de complejidad basadas en teoría de la información, que tienen en cuenta no sólo las componentes no lineales, sino también componentes estocásticas presentes en las series de tiempo. De igual manera se proponen tres medidas de complejidad basadas en modelos estocásticos que permiten una mejor caracterización del espacio de estados y proporcionan información complementaria útil para el sistema de detección. El trabajo estudia distintos esquemas de clasificación, tanto para el problema de detección de patologías de voz como para el problema multi-clase de clasificación de una voz dentro de la escala de calidad GRBAS. Adicionalmente, considera el problema de combinación de información a partir de métodos no lineales, con medidas de ruido y cepstrales, estableciendo la relevancia real que tienen las medidas de complejidad para mejorar la capacidad discriminante de los sistemas de detección automática de patologías de voz, y proporciona una metodología basada en técnicas de combinación de clasificadores con resultados que alcanzan un 98.23%±0.001 de acierto en el primer caso y un 63.56% de acierto para la valoración automática de la calidad de la voz de acuerdo con la escala GRBAS. Los estudios realizados muestran que el error de detección de voces patológicas se reduce en un 66.67%, en comparación con los resultados obtenidos empleando únicamente medidas de ruido y parámetros cepstrales; mientras que el error de medición de la escala GRBAS se redujo en un 13.69% realizando una comparación similar a la anterior. Estos resultados superan los mejores resultados encontrados actualmente en el estado del arte / Abstract : Diagnostic and clinical treatment of laryngeal pathologies is currently a problem of great interest for a part of the scientific community related to the digital processing of speech. The main objective in this field of research is the development of computer-aided medical diagnostic tools, enabling an objective assessment of a patient and subsequently improving the diagnosis and clinical treatment given to him/her. Additionally, such systems help to the early detection of diseases that otherwise could remain hidden during a crucial time for a effective treatment. Most of the studies that have been conducted in this field are based on linear methods for characterizing the speech signal. Several of the features extracted from such methods have proved to contain useful information for the detection problem. However, several studies have shown that in the speech production process there are different physical phenomena with nonlinear characteristics, which are not characterized by conventional methods based on linear techniques. This thesis is focused on the analysis and characterization of nonlinear components present in speech signals, using state space reconstruction techniques based on the time delay embedding theorem. Their use have been studied as complementary tools to extract information for the automatic detection and grading of pathological voices, and for the automatic assessment of voices according to the GRBAS quality scale. Nonlinear analysis of voice signals is particularly more complex than using other kind of signals, given that during the voice production process there are inherent turbulent events that add random components to the voice signals which, by definition, are not considered by conventional methods of nonlinear analysis. Therefore, this work examines measures conventionally used for the analysis of nonlinear dynamics, as well as various measures of complexity based on information theory which take into account not only the nonlinear components, but also the stochastic components present in time series. Furthermore, there have been proposed three measures of complexity based on stochastic models that allow a better characterization of the state space and provide useful information for the detection system. Moreover, this work study different classification schemes for both the problem of voice pathology detection and the multi-class classification problem according to the GRBAS quality scale. Additionally, it considers the problem of fusing information from non-linear methods, with noise and cepstral measures, establishing the real capabilities of complexity measures to improve the discrimination of an automatic detection of voice disorders system. Moreover, it provides a methodology fusing classifiers, yielding a 98.23% ± 0.01 of accuracy in the first case and a 63.56% of correct detection for the automatic grading of voice quality according to GRBAS scale. The studies performed showed that the error of the automatic detection pathological voices is reduced a 66.67% in comparison to the error obtained using more classic parameterization approaches based on noise measures and cepstral coefficients. In addition, the error of the voice quality gradings according to the GRBAS scale was reduced a 13.69% comparing to the performance obtained using classic parameterization approaches. These results outperform the best results currently found in the state of the art.
publishDate 2010
dc.date.issued.spa.fl_str_mv 2010
dc.date.accessioned.spa.fl_str_mv 2019-06-24T16:32:16Z
dc.date.available.spa.fl_str_mv 2019-06-24T16:32:16Z
dc.type.spa.fl_str_mv Trabajo de grado - Doctorado
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/doctoralThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_db06
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TD
format http://purl.org/coar/resource_type/c_db06
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv https://repositorio.unal.edu.co/handle/unal/7283
dc.identifier.eprints.spa.fl_str_mv http://bdigital.unal.edu.co/3628/
url https://repositorio.unal.edu.co/handle/unal/7283
http://bdigital.unal.edu.co/3628/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.ispartof.spa.fl_str_mv Universidad Nacional de Colombia Sede Manizales Facultad de Ingeniería y Arquitectura Departamento de Ingeniería Eléctrica, Electrónica y Computación
Departamento de Ingeniería Eléctrica, Electrónica y Computación
dc.relation.references.spa.fl_str_mv Arias Londoño, Julián David (2010) Stochastic characterization of nonlinear dynamics for the automatic evaluation of voice quality = [Caracterización estocástica de dinámicas no lineales para la evaluación automática de calidad de la voz]. Doctorado thesis, Universidad Nacional de Colombia - Sede Manizales.
dc.rights.spa.fl_str_mv Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial 4.0 Internacional
Derechos reservados - Universidad Nacional de Colombia
http://creativecommons.org/licenses/by-nc/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
institution Universidad Nacional de Colombia
bitstream.url.fl_str_mv https://repositorio.unal.edu.co/bitstream/unal/7283/1/juliandavidariaslondono.2010.pdf
https://repositorio.unal.edu.co/bitstream/unal/7283/2/juliandavidariaslondono.2010.pdf.jpg
bitstream.checksum.fl_str_mv 371c5655cfda9988cf38661fbc6faef0
61f5bdd331d242739b8beac18db9253a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv repositorio_nal@unal.edu.co
_version_ 1814090176595492864
spelling Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Godino Llorente, Juan Ignacio (Thesis advisor)33022724-dd15-43b3-bdf1-05fb4b989b3fCastellanos Domínguez, César Germán (Thesis advisor)c792a029-43aa-4eb1-ac01-0b8ac24a537eArias Londoño, Julián David65cd9843-05b6-429d-9f0e-c341ddd1d14f3002019-06-24T16:32:16Z2019-06-24T16:32:16Z2010https://repositorio.unal.edu.co/handle/unal/7283http://bdigital.unal.edu.co/3628/El diagnóstico y tratamiento clínico de patologías laríngeas es en la actualidad un problema de gran interés para una rama de la investigación relacionada con el tratamiento digital del habla. El objetivo principal de la investigación en este campo consiste en el desarrollo de sistemas de diagnóstico asistido, que posibiliten la evaluación objetiva de un paciente y posteriormente mejoren el diagnóstico y tratamiento clínico que a él se le da. Adicionalmente, este tipo de sistemas ayudan a la detección temprana de enfermedades que, de otra forma, podrían permanecer ocultas durante un tiempo crucial para que su tratamiento sea eficaz. La mayor parte de los estudios que se han llevado a cabo en este campo están basados en métodos lineales de caracterización de la señal de voz. Varias de dichas características han demostrado contener información de gran utilidad para el problema de detección. Sin embargo, diversos estudios han mostrado que en el proceso de producción de voz se presentan diferentes fenómenos físicos con características no lineales, que no pueden ser caracterizados por métodos convencionales basados en técnicas lineales. Esta tesis doctoral está enfocada en el análisis y caracterización de componentes no lineales en señales de voz, a partir de técnicas de embebimiento por retardo de tiempo para la reconstrucción del espacio de estados. Se estudia su empleo como herramienta complementaria para la extracción de información en la detección automática de voces patológicas y en la medición automática de niveles de calidad de voz tomando como referencia la escala de medida GRBAS. El análisis no lineal de señales de voz es particularmente más complejo que el de otro tipo de señales, debido al hecho de que durante el proceso de producción de la voz se presentan inherentemente fenómenos de turbulencia, los cuales adicionan componentes aleatorias a las señales de voz que, por definición, no están consideradas por los métodos convencionales de análisis no lineal. Por lo tanto, en este trabajo se estudian medidas convencionalmente usadas en el análisis de dinámica no lineal, tanto como diversas medidas de complejidad basadas en teoría de la información, que tienen en cuenta no sólo las componentes no lineales, sino también componentes estocásticas presentes en las series de tiempo. De igual manera se proponen tres medidas de complejidad basadas en modelos estocásticos que permiten una mejor caracterización del espacio de estados y proporcionan información complementaria útil para el sistema de detección. El trabajo estudia distintos esquemas de clasificación, tanto para el problema de detección de patologías de voz como para el problema multi-clase de clasificación de una voz dentro de la escala de calidad GRBAS. Adicionalmente, considera el problema de combinación de información a partir de métodos no lineales, con medidas de ruido y cepstrales, estableciendo la relevancia real que tienen las medidas de complejidad para mejorar la capacidad discriminante de los sistemas de detección automática de patologías de voz, y proporciona una metodología basada en técnicas de combinación de clasificadores con resultados que alcanzan un 98.23%±0.001 de acierto en el primer caso y un 63.56% de acierto para la valoración automática de la calidad de la voz de acuerdo con la escala GRBAS. Los estudios realizados muestran que el error de detección de voces patológicas se reduce en un 66.67%, en comparación con los resultados obtenidos empleando únicamente medidas de ruido y parámetros cepstrales; mientras que el error de medición de la escala GRBAS se redujo en un 13.69% realizando una comparación similar a la anterior. Estos resultados superan los mejores resultados encontrados actualmente en el estado del arte / Abstract : Diagnostic and clinical treatment of laryngeal pathologies is currently a problem of great interest for a part of the scientific community related to the digital processing of speech. The main objective in this field of research is the development of computer-aided medical diagnostic tools, enabling an objective assessment of a patient and subsequently improving the diagnosis and clinical treatment given to him/her. Additionally, such systems help to the early detection of diseases that otherwise could remain hidden during a crucial time for a effective treatment. Most of the studies that have been conducted in this field are based on linear methods for characterizing the speech signal. Several of the features extracted from such methods have proved to contain useful information for the detection problem. However, several studies have shown that in the speech production process there are different physical phenomena with nonlinear characteristics, which are not characterized by conventional methods based on linear techniques. This thesis is focused on the analysis and characterization of nonlinear components present in speech signals, using state space reconstruction techniques based on the time delay embedding theorem. Their use have been studied as complementary tools to extract information for the automatic detection and grading of pathological voices, and for the automatic assessment of voices according to the GRBAS quality scale. Nonlinear analysis of voice signals is particularly more complex than using other kind of signals, given that during the voice production process there are inherent turbulent events that add random components to the voice signals which, by definition, are not considered by conventional methods of nonlinear analysis. Therefore, this work examines measures conventionally used for the analysis of nonlinear dynamics, as well as various measures of complexity based on information theory which take into account not only the nonlinear components, but also the stochastic components present in time series. Furthermore, there have been proposed three measures of complexity based on stochastic models that allow a better characterization of the state space and provide useful information for the detection system. Moreover, this work study different classification schemes for both the problem of voice pathology detection and the multi-class classification problem according to the GRBAS quality scale. Additionally, it considers the problem of fusing information from non-linear methods, with noise and cepstral measures, establishing the real capabilities of complexity measures to improve the discrimination of an automatic detection of voice disorders system. Moreover, it provides a methodology fusing classifiers, yielding a 98.23% ± 0.01 of accuracy in the first case and a 63.56% of correct detection for the automatic grading of voice quality according to GRBAS scale. The studies performed showed that the error of the automatic detection pathological voices is reduced a 66.67% in comparison to the error obtained using more classic parameterization approaches based on noise measures and cepstral coefficients. In addition, the error of the voice quality gradings according to the GRBAS scale was reduced a 13.69% comparing to the performance obtained using classic parameterization approaches. These results outperform the best results currently found in the state of the art.Doctoradoapplication/pdfspaUniversidad Nacional de Colombia Sede Manizales Facultad de Ingeniería y Arquitectura Departamento de Ingeniería Eléctrica, Electrónica y ComputaciónDepartamento de Ingeniería Eléctrica, Electrónica y ComputaciónArias Londoño, Julián David (2010) Stochastic characterization of nonlinear dynamics for the automatic evaluation of voice quality = [Caracterización estocástica de dinámicas no lineales para la evaluación automática de calidad de la voz]. Doctorado thesis, Universidad Nacional de Colombia - Sede Manizales.0 Generalidades / Computer science, information and general works51 Matemáticas / Mathematics62 Ingeniería y operaciones afines / EngineeringTratamiento digital del habla, Señales de voz, Técnicas de embebimiento, Calidad de voz, Análisis no lineal de señales de voz, Procesos estocásticos, Procesamiento de señales-Métodos estadísticos, Sistemas de procesamiento de la voz, Trastornos de la voz, Electrónica médicaStochastic characterization of nonlinear dynamics for the automatic evaluation of voice qualityCaracterización estocástica de dinámicas no lineales para la evaluación automática de calidad de la vozTrabajo de grado - Doctoradoinfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_db06Texthttp://purl.org/redcol/resource_type/TDORIGINALjuliandavidariaslondono.2010.pdfapplication/pdf2946270https://repositorio.unal.edu.co/bitstream/unal/7283/1/juliandavidariaslondono.2010.pdf371c5655cfda9988cf38661fbc6faef0MD51THUMBNAILjuliandavidariaslondono.2010.pdf.jpgjuliandavidariaslondono.2010.pdf.jpgGenerated Thumbnailimage/jpeg5331https://repositorio.unal.edu.co/bitstream/unal/7283/2/juliandavidariaslondono.2010.pdf.jpg61f5bdd331d242739b8beac18db9253aMD52unal/7283oai:repositorio.unal.edu.co:unal/72832022-09-06 23:03:15.419Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co