Implementación de un sistema de traducción automática voz a voz mediante el uso de transformers

En este proyecto se implementó un sistema de traducción de voz a voz basado en transformers, abordando los desafíos en cada etapa del proceso: reconocimiento de voz (voz a texto), traducción y síntesis de voz (texto a voz). Inicialmente, se implementó una solución utilizando modelos separados de aut...

Full description

Autores:
Hurtado Jiménez, Daniel
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2024
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/74277
Acceso en línea:
https://hdl.handle.net/1992/74277
Palabra clave:
Transformers
Hugging Face
Speech to speech translation
Ingeniería
Rights
openAccess
License
https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
Description
Summary:En este proyecto se implementó un sistema de traducción de voz a voz basado en transformers, abordando los desafíos en cada etapa del proceso: reconocimiento de voz (voz a texto), traducción y síntesis de voz (texto a voz). Inicialmente, se implementó una solución utilizando modelos separados de automatic speech recognition (ASR) y traducción, empleando Wav2Vec2 con capas de salida CTC. Sin embargo, esta configuración presentó fallas significativas en la transcripción, lo que llevó a explorar modelos más robustos. Finalmente, se decidió utilizar Whisper de OpenAI, un modelo con arquitectura seq2seq que además de convertir el audio a texto este también lo traduce. Para la síntesis de voz, se empleó SpeechT5 junto con speakers embeddings generados mediante una combinación de X-vectors y ECAPA-TDNN. Se concluyo que, aunque los resultados en términos de calidad de traducción y generación de voz son prometedores, la eficiencia operativa y la robustez en condiciones variables siguen siendo áreas críticas de mejora, especialmente en la síntesis de voz.