Identificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de voz
En este proyecto de grado se aborda el problema de clasificación de lenguaje hablado usando técnicas de Deep Learning. Específicamente, se implementan algunos clasificadores tanto binarios como multi-clase utilizando distintas arquitecturas de redes neuronales para ser entrenados y finalmente tener...
- Autores:
-
Cruz Montealegre, Maria Camila
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2021
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/50650
- Acceso en línea:
- http://hdl.handle.net/1992/50650
- Palabra clave:
- Redes neurales (Computadores)
Aprendizaje automático (Inteligencia artificial)
Reconocimiento automático de la voz
Interfases con el usuario (Sistemas para computador)
Ingeniería
- Rights
- openAccess
- License
- https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
Summary: | En este proyecto de grado se aborda el problema de clasificación de lenguaje hablado usando técnicas de Deep Learning. Específicamente, se implementan algunos clasificadores tanto binarios como multi-clase utilizando distintas arquitecturas de redes neuronales para ser entrenados y finalmente tener modelos de clasificación para 7 idiomas distintos. Para esto, se realiza un preprocesamiento de los audios seguido de una generación de mel-espectrogramas para obtener las entradas de los modelos. Luego, se realiza la creación de la base de datos a partir de los mel espectrogramas y se procede a entrenar los modelos correspondientes. Por último, se evalúan cada uno de los clasificadores, se realizan comparaciones de desempeño entre ellos y se concluye que el mejor clasificador corresponde al modelo multiclase entrenado con la ResNet50 cuya Accuracy es de 96% y tiene un f1-score promedio de 0.95. |
---|