Identificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de voz

En este proyecto de grado se aborda el problema de clasificación de lenguaje hablado usando técnicas de Deep Learning. Específicamente, se implementan algunos clasificadores tanto binarios como multi-clase utilizando distintas arquitecturas de redes neuronales para ser entrenados y finalmente tener...

Full description

Autores:
Cruz Montealegre, Maria Camila
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2021
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/50650
Acceso en línea:
http://hdl.handle.net/1992/50650
Palabra clave:
Redes neurales (Computadores)
Aprendizaje automático (Inteligencia artificial)
Reconocimiento automático de la voz
Interfases con el usuario (Sistemas para computador)
Ingeniería
Rights
openAccess
License
https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
Description
Summary:En este proyecto de grado se aborda el problema de clasificación de lenguaje hablado usando técnicas de Deep Learning. Específicamente, se implementan algunos clasificadores tanto binarios como multi-clase utilizando distintas arquitecturas de redes neuronales para ser entrenados y finalmente tener modelos de clasificación para 7 idiomas distintos. Para esto, se realiza un preprocesamiento de los audios seguido de una generación de mel-espectrogramas para obtener las entradas de los modelos. Luego, se realiza la creación de la base de datos a partir de los mel espectrogramas y se procede a entrenar los modelos correspondientes. Por último, se evalúan cada uno de los clasificadores, se realizan comparaciones de desempeño entre ellos y se concluye que el mejor clasificador corresponde al modelo multiclase entrenado con la ResNet50 cuya Accuracy es de 96% y tiene un f1-score promedio de 0.95.