Implementación de un sistema de traducción automática voz a voz mediante el uso de transformers
En este proyecto se implementó un sistema de traducción de voz a voz basado en transformers, abordando los desafíos en cada etapa del proceso: reconocimiento de voz (voz a texto), traducción y síntesis de voz (texto a voz). Inicialmente, se implementó una solución utilizando modelos separados de aut...
- Autores:
-
Hurtado Jiménez, Daniel
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2024
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/74277
- Acceso en línea:
- https://hdl.handle.net/1992/74277
- Palabra clave:
- Transformers
Hugging Face
Speech to speech translation
Ingeniería
- Rights
- openAccess
- License
- https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
Summary: | En este proyecto se implementó un sistema de traducción de voz a voz basado en transformers, abordando los desafíos en cada etapa del proceso: reconocimiento de voz (voz a texto), traducción y síntesis de voz (texto a voz). Inicialmente, se implementó una solución utilizando modelos separados de automatic speech recognition (ASR) y traducción, empleando Wav2Vec2 con capas de salida CTC. Sin embargo, esta configuración presentó fallas significativas en la transcripción, lo que llevó a explorar modelos más robustos. Finalmente, se decidió utilizar Whisper de OpenAI, un modelo con arquitectura seq2seq que además de convertir el audio a texto este también lo traduce. Para la síntesis de voz, se empleó SpeechT5 junto con speakers embeddings generados mediante una combinación de X-vectors y ECAPA-TDNN. Se concluyo que, aunque los resultados en términos de calidad de traducción y generación de voz son prometedores, la eficiencia operativa y la robustez en condiciones variables siguen siendo áreas críticas de mejora, especialmente en la síntesis de voz. |
---|