Implementación de un sistema de traducción automática voz a voz mediante el uso de transformers

En este proyecto se implementó un sistema de traducción de voz a voz basado en transformers, abordando los desafíos en cada etapa del proceso: reconocimiento de voz (voz a texto), traducción y síntesis de voz (texto a voz). Inicialmente, se implementó una solución utilizando modelos separados de aut...

Full description

Autores:: Hurtado Jiménez, Daniel

Tipo de recurso:: Trabajo de grado de pregrado

Fecha de publicación:: 2024

Institución:: Universidad de los Andes

Repositorio:: Séneca: repositorio Uniandes

Idioma:: spa

Description
Summary:	En este proyecto se implementó un sistema de traducción de voz a voz basado en transformers, abordando los desafíos en cada etapa del proceso: reconocimiento de voz (voz a texto), traducción y síntesis de voz (texto a voz). Inicialmente, se implementó una solución utilizando modelos separados de automatic speech recognition (ASR) y traducción, empleando Wav2Vec2 con capas de salida CTC. Sin embargo, esta configuración presentó fallas significativas en la transcripción, lo que llevó a explorar modelos más robustos. Finalmente, se decidió utilizar Whisper de OpenAI, un modelo con arquitectura seq2seq que además de convertir el audio a texto este también lo traduce. Para la síntesis de voz, se empleó SpeechT5 junto con speakers embeddings generados mediante una combinación de X-vectors y ECAPA-TDNN. Se concluyo que, aunque los resultados en términos de calidad de traducción y generación de voz son prometedores, la eficiencia operativa y la robustez en condiciones variables siguen siendo áreas críticas de mejora, especialmente en la síntesis de voz.

Implementación de un sistema de traducción automática voz a voz mediante el uso de transformers

Publicaciones similares