Herramienta software para identificación automática de acento local
Las variaciones en los acentos es uno de los factores que más afecta el rendimiento de los sistemas de reconocimiento de voz. En Colombia, a pesar de existir una diversidad de acentos, no se ha realizado una evaluación formal de los métodos actuales para identificación automática de este, los cuales...
- Autores:
-
Correa Neira, Tania Liseth
Bolivar Acosta, Yorlene
- Tipo de recurso:
- Fecha de publicación:
- 2016
- Institución:
- Universidad del Norte
- Repositorio:
- Repositorio Uninorte
- Idioma:
- spa
- OAI Identifier:
- oai:manglar.uninorte.edu.co:10584/5892
- Acceso en línea:
- http://hdl.handle.net/10584/5892
- Palabra clave:
- Acento Colombia, GMM, LPCC, MFCC, reconocimiento de voz
Colombian accent, GMM, LPCC, MFCC, speech recognition
- Rights
- License
- Universidad del Norte
id |
REPOUNORT2_d4200881b22061513db4f805f0edf870 |
---|---|
oai_identifier_str |
oai:manglar.uninorte.edu.co:10584/5892 |
network_acronym_str |
REPOUNORT2 |
network_name_str |
Repositorio Uninorte |
repository_id_str |
|
dc.title.es_ES.fl_str_mv |
Herramienta software para identificación automática de acento local |
dc.title.en_US.fl_str_mv |
Software tool for local accent automatic identification |
title |
Herramienta software para identificación automática de acento local |
spellingShingle |
Herramienta software para identificación automática de acento local Acento Colombia, GMM, LPCC, MFCC, reconocimiento de voz Colombian accent, GMM, LPCC, MFCC, speech recognition |
title_short |
Herramienta software para identificación automática de acento local |
title_full |
Herramienta software para identificación automática de acento local |
title_fullStr |
Herramienta software para identificación automática de acento local |
title_full_unstemmed |
Herramienta software para identificación automática de acento local |
title_sort |
Herramienta software para identificación automática de acento local |
dc.creator.fl_str_mv |
Correa Neira, Tania Liseth Bolivar Acosta, Yorlene |
dc.contributor.advisor.none.fl_str_mv |
Percybooks Bolivar, Winston Spencer |
dc.contributor.author.none.fl_str_mv |
Correa Neira, Tania Liseth Bolivar Acosta, Yorlene |
dc.subject.es_ES.fl_str_mv |
Acento Colombia, GMM, LPCC, MFCC, reconocimiento de voz |
topic |
Acento Colombia, GMM, LPCC, MFCC, reconocimiento de voz Colombian accent, GMM, LPCC, MFCC, speech recognition |
dc.subject.en_US.fl_str_mv |
Colombian accent, GMM, LPCC, MFCC, speech recognition |
description |
Las variaciones en los acentos es uno de los factores que más afecta el rendimiento de los sistemas de reconocimiento de voz. En Colombia, a pesar de existir una diversidad de acentos, no se ha realizado una evaluación formal de los métodos actuales para identificación automática de este, los cuales se centran en el idioma inglés. Se propone la implementación de una herramienta que permite identificar cuando un audio o alguna frase leída por el usuario, pertenece o no al acento local de la costa atlántica colombiana. Inicialmente, fue necesario crear una base de datos con voluntarios de acento de la costa atlántica y de otras regiones del país. Esta consiste en 13 personas de acento local y 6 personas de acento no local. El desarrollo del software consistió de 2 etapas: una de entrenamiento y una de pruebas. En la primera etapa se extrajeron los vectores de características Mel Frequency Cepstral Coefficients(MFCC) y Linear Prediction Cepstral Coefficientes(LPCC) de una determinada cantidad de frases de la base de datos. Luego de esto, se produjeron los modelos de Gaussian Mixture Model(GMM) para las frases de ambos acentos; La segunda etapa(prueba) consistió en determinar qué tan preciso son los métodos implementados en el software para el reconocimiento del acento local: LPCC-GMM y MFCC-GMM y cuál de los dos es el mejor para la identificación del acento costeño local. Por cada frase que se introduce al software se toma una decisión: posee o no acento local. Por ello, cada frase constituye una muestra. Para realizar la prueba de hipótesis se tomaron 50 muestras, escogiendo aleatoriamente 5 personas de acento local y 5 personas con acento no local de los audios destinados a pruebas. Se evidenció con un nivel de confianza del 95% que el rendimiento para LPCC-GMM está entre un 64.16% y 87.84%, y para MFCC-GMM está entre 40.19% y 67.81%. Con esto se concluye que entre estos dos métodos LPCC-GMM es el más idóneo para ser utilizado en nuestro sistema. |
publishDate |
2016 |
dc.date.issued.none.fl_str_mv |
2016-11-24 |
dc.date.accessioned.none.fl_str_mv |
2017-02-13T20:02:57Z |
dc.date.available.none.fl_str_mv |
2017-02-13T20:02:57Z |
dc.type.es_ES.fl_str_mv |
article |
dc.type.coar.fl_str_mv |
http://purl.org/coar/resource_type/c_6501 |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/10584/5892 |
url |
http://hdl.handle.net/10584/5892 |
dc.language.iso.es_ES.fl_str_mv |
spa |
language |
spa |
dc.rights.es_ES.fl_str_mv |
Universidad del Norte |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
rights_invalid_str_mv |
Universidad del Norte http://purl.org/coar/access_right/c_abf2 |
dc.publisher.es_ES.fl_str_mv |
Barranquilla, Universidad del Norte, 2016 |
institution |
Universidad del Norte |
bitstream.url.fl_str_mv |
http://172.16.14.36:8080/bitstream/10584/5892/1/pf.png http://172.16.14.36:8080/bitstream/10584/5892/2/pf.pdf http://172.16.14.36:8080/bitstream/10584/5892/3/license.txt |
bitstream.checksum.fl_str_mv |
9ce78bf1560f4fbbe0a4e0aaf19bb349 02688208372d87861c485cddc30845d4 8a4605be74aa9ea9d79846c1fba20a33 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Digital de la Universidad del Norte |
repository.mail.fl_str_mv |
mauribe@uninorte.edu.co |
_version_ |
1812183101060677632 |
spelling |
Percybooks Bolivar, Winston SpencerCorrea Neira, Tania LisethBolivar Acosta, Yorlene2017-02-13T20:02:57Z2017-02-13T20:02:57Z2016-11-24http://hdl.handle.net/10584/5892Las variaciones en los acentos es uno de los factores que más afecta el rendimiento de los sistemas de reconocimiento de voz. En Colombia, a pesar de existir una diversidad de acentos, no se ha realizado una evaluación formal de los métodos actuales para identificación automática de este, los cuales se centran en el idioma inglés. Se propone la implementación de una herramienta que permite identificar cuando un audio o alguna frase leída por el usuario, pertenece o no al acento local de la costa atlántica colombiana. Inicialmente, fue necesario crear una base de datos con voluntarios de acento de la costa atlántica y de otras regiones del país. Esta consiste en 13 personas de acento local y 6 personas de acento no local. El desarrollo del software consistió de 2 etapas: una de entrenamiento y una de pruebas. En la primera etapa se extrajeron los vectores de características Mel Frequency Cepstral Coefficients(MFCC) y Linear Prediction Cepstral Coefficientes(LPCC) de una determinada cantidad de frases de la base de datos. Luego de esto, se produjeron los modelos de Gaussian Mixture Model(GMM) para las frases de ambos acentos; La segunda etapa(prueba) consistió en determinar qué tan preciso son los métodos implementados en el software para el reconocimiento del acento local: LPCC-GMM y MFCC-GMM y cuál de los dos es el mejor para la identificación del acento costeño local. Por cada frase que se introduce al software se toma una decisión: posee o no acento local. Por ello, cada frase constituye una muestra. Para realizar la prueba de hipótesis se tomaron 50 muestras, escogiendo aleatoriamente 5 personas de acento local y 5 personas con acento no local de los audios destinados a pruebas. Se evidenció con un nivel de confianza del 95% que el rendimiento para LPCC-GMM está entre un 64.16% y 87.84%, y para MFCC-GMM está entre 40.19% y 67.81%. Con esto se concluye que entre estos dos métodos LPCC-GMM es el más idóneo para ser utilizado en nuestro sistema.The variations in the accents is one of the factors that affects the most the performance of the speech recognition systems. In Colombia, even though there is a great accents diversity, it has not been carried out a formal evaluation regarding the current methods for the accent automatic identification. It is proposed the implementation of a tool, which allows to identify whether a recording belongs to the local accent from the Colombian atlantic coast. Firstly, it was necessary to creat a database with volunteers who had the accent from the Colombian atlantic coast and from other regions of the country. This database contains recordings from 13 volunteers with local accent and 6 with no local accent. The software development had 2 phases: training and testing. During the first phase, it was extracted the Mel Frequency Cepstral Coefficients(MFCC) and Linear Prediction Cepstral Coefficients(LPCC) vectors from a determined amount of phrases belonging to the database. Then, it was build the Gaussian Mixture Models (GMM) for the phrases of both accents; during the second phase it was calculated the accuracy levels of both methods: LPCC-GMM and MFCC-GMM in order to determine which of them was the best for the Atlantic coast accent. Each sentence of input to the software, this makes a decision: whether it has the local accent or it does not. For testing, it was taken 50 samples, choosing randomly recordings of 5 people from local accent and 5 people from no local accent. It was found that with a confidence level of 95%, the accuracy for LPCC-GMM was between 64.16% and 87.84% and for MFCC-GMM it was between 40.19% and 67.81%. In conclusion, between the two implemented methods, LPCC-GMM is the best choice for our system.spaBarranquilla, Universidad del Norte, 2016Universidad del Nortehttp://purl.org/coar/access_right/c_abf2Acento Colombia, GMM, LPCC, MFCC, reconocimiento de vozColombian accent, GMM, LPCC, MFCC, speech recognitionHerramienta software para identificación automática de acento localSoftware tool for local accent automatic identificationarticlehttp://purl.org/coar/resource_type/c_6501ORIGINALpf.pngpf.pngimage/png343293http://172.16.14.36:8080/bitstream/10584/5892/1/pf.png9ce78bf1560f4fbbe0a4e0aaf19bb349MD51pf.pdfpf.pdfapplication/pdf156793http://172.16.14.36:8080/bitstream/10584/5892/2/pf.pdf02688208372d87861c485cddc30845d4MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://172.16.14.36:8080/bitstream/10584/5892/3/license.txt8a4605be74aa9ea9d79846c1fba20a33MD5310584/5892oai:172.16.14.36:10584/58922017-02-13 15:02:57.994Repositorio Digital de la Universidad del Nortemauribe@uninorte.edu.co |