Identificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de voz

En este proyecto de grado se aborda el problema de clasificación de lenguaje hablado usando técnicas de Deep Learning. Específicamente, se implementan algunos clasificadores tanto binarios como multi-clase utilizando distintas arquitecturas de redes neuronales para ser entrenados y finalmente tener...

Full description

Autores:: Cruz Montealegre, Maria Camila

Tipo de recurso:: Trabajo de grado de pregrado

Fecha de publicación:: 2021

Institución:: Universidad de los Andes

Repositorio:: Séneca: repositorio Uniandes

Idioma:: spa

Description
Summary:	En este proyecto de grado se aborda el problema de clasificación de lenguaje hablado usando técnicas de Deep Learning. Específicamente, se implementan algunos clasificadores tanto binarios como multi-clase utilizando distintas arquitecturas de redes neuronales para ser entrenados y finalmente tener modelos de clasificación para 7 idiomas distintos. Para esto, se realiza un preprocesamiento de los audios seguido de una generación de mel-espectrogramas para obtener las entradas de los modelos. Luego, se realiza la creación de la base de datos a partir de los mel espectrogramas y se procede a entrenar los modelos correspondientes. Por último, se evalúan cada uno de los clasificadores, se realizan comparaciones de desempeño entre ellos y se concluye que el mejor clasificador corresponde al modelo multiclase entrenado con la ResNet50 cuya Accuracy es de 96% y tiene un f1-score promedio de 0.95.

Identificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de voz

Publicaciones similares