Acoustic and language modeling for speech recognition of a Spanish dialect from the Cucuta Colombian region
Contexto: El reconocimiento automático del habla requiere el desarrollo de modelos de lenguaje y modelos acusticos para los diferentes dialectos que existen. El objeto de esta investigacion es el entrenamiento de un modelo acustico, un modelo de lenguaje estadístico y un modelo de lenguaje gramatica...
- Autores:
-
Celis Nuñez, Juan David
Llanos Castro, Rodrigo Andres
Medina Delgado, Byron
Sepúlveda Mora, Sergio Basilio
Castro Casadiego, Sergio
- Tipo de recurso:
- Article of journal
- Fecha de publicación:
- 2017
- Institución:
- Universidad Francisco de Paula Santander
- Repositorio:
- Repositorio Digital UFPS
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.ufps.edu.co:ufps/1009
- Acceso en línea:
- http://repositorio.ufps.edu.co/handle/ufps/1009
https://doi.org/10.14483/23448393.11616
- Palabra clave:
- speech recognition
acoustic models
language models
CMU Sphinx
Raspberry Pi
reconocimiento del habla
modelos acústicos
modelos de lenguajes
- Rights
- openAccess
- License
- ©The authors; reproduction right holder Universidad Distrital Francisco Jos ́e de Caldas.
Summary: | Contexto: El reconocimiento automático del habla requiere el desarrollo de modelos de lenguaje y modelos acusticos para los diferentes dialectos que existen. El objeto de esta investigacion es el entrenamiento de un modelo acustico, un modelo de lenguaje estadístico y un modelo de lenguaje gramatical para el idioma espahol, específicamente para el dialecto de la ciudad de San Jose de Ctucuta, Colombia, que pueda ser utilizado en un sistema de control por comandos. Lo anterior motivado por las deficiencias que presentan los modelos existentes para el idioma espadol, en el reconocimiento de la frecuencia fundamental y contenido espectral, el acento, la pronunciacioí n, el tono o simplemente al modelo de lenguaje de la variante dialectica de esta region. Metodo: Este proyecto utiliza el sistema embebido Raspberry Pi B+ con el sistema operativo Raspbian que es una distribucion de Linux y los softwares de codigo abierto CMU-Cambridge Statistical Language Modeling toolkit de la Universidad de Cambridge y CMU Sphinx de la Universidad Carnegie Mellon; los cuales se basan en los modelos ocultos de Markov para el caí lculo de los paraí metros de voz. Ademas, se utilizaron 1913 audios grabados por locutores de la ciudad de San Jose de Cicuta y el departamento de Norte de Santander para el entrenamiento y las pruebas del sistema de reconocimiento automaítico del habla. Resultados: Se obtuvo un modelo de lenguaje que consiste de dos archivos, uno de modelo de lenguaje estadístico (. lm), y uno de modelo gramatical (. jsgf). En relación con la parte acústica se entrenaron dos modelos, uno de ellos con una versión mejorada que obtuvo una tasa de acierto en el reconocimiento de comandos del 100 % en los datos de entrenamiento y de 83 % en las pruebas de audio. Por último, se elaboró un manual para la creación de los modelos acústicos y de lenguaje con el software CMU Sphinx. Conclusiones: El número de participantes en el proceso de entrenamiento de los modelos acústicos y de lenguaje influye significativamente en la calidad del procesamiento de voz del reconocedor. A fin de obtener una mejor respuesta del sistema de Reconocimiento Automático del Habla es importante usar un diccionario largo para la etapa de entrenamiento y un diccionario corto con las palabras de comando para la implementación del sistema. Teniendo en cuenta que en las pruebas de reconocimiento se obtuvo una tasa de éxito mayor al 80 % es posible usar los modelos creados en el desarrollo de un sistema de Reconocimiento Automático del Habla para una aplicación orientada a la asistencia de personas con discapacidad visual o incapacidad de movimiento |
---|