Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo

El interés en sistemas computacionales capaces de replicar voces ha crecido significativamente debido a sus aplicaciones en diferentes industrias tales como la ciberseguridad, eHealthcare y Producción audiovisual, entre otros. La implementación de técnicas de Deep Learning permiten crear modelos cap...

Full description

Autores:
Camero Amador, Rubén Dario Junior
Ramos Rossetes, Jaime Josue
Mejía Suárez, Omar Ángel
Tipo de recurso:
Fecha de publicación:
2021
Institución:
Universidad del Norte
Repositorio:
Repositorio Uninorte
Idioma:
spa
OAI Identifier:
oai:manglar.uninorte.edu.co:10584/9553
Acceso en línea:
http://hdl.handle.net/10584/9553
Palabra clave:
Text-to-speech
Voice Cloning
VISQOL
Deep Learning
Texto-a-voz
Aprendizaje Profundo
Clonador de voz
VISQOL
Rights
License
Universidad del Norte
Description
Summary:El interés en sistemas computacionales capaces de replicar voces ha crecido significativamente debido a sus aplicaciones en diferentes industrias tales como la ciberseguridad, eHealthcare y Producción audiovisual, entre otros. La implementación de técnicas de Deep Learning permiten crear modelos capaces de lograr una gran precisión y efectividad en tareas de replicación de voz y transformación de texto a voz. Para la implementación de esta solución, se adaptó un sistema basado en redes neuronales para la síntesis de texto a voz (TTS) para hispanohablantes, dicho sistema es capaz de generar réplicas de voz para diferentes hablantes, aun cuando en el proceso de entrenamiento no se hayan tenido muestras de ellos. Las adaptaciones en nuestra versión creada se pueden clasificar en 2 tipos. La primera clasificación aborda todos los cambios efectuados en el código original, actualización de librerías requeridas y recambio de estas, esto con el fin de hacer compatible el código fuente a diversos entornos de ejecución tanto en la nube cómo locales. Además, de optimizar la solución a nuestro caso de uso. La segunda abarca la búsqueda, estandarización y transformación de los datos proveídos cómo entradas del modelo. La estructura de los datos de entrada que recibían los modelos del sintetizador y el codificador deben ajustarse a los requerimientos instanciados por los modelos, con el fin de lograr un mayor rendimiento y buena implementación de estos. En síntesis, se presentó una implementación del modelo TTS para el lenguaje español, en el que se muestra que es posible a partir de una corta muestra de audio y texto de entrada, reproducir o clonar la voz de una persona hispanohablante. Gracias a la métrica VISQOL, pudimos cuantificar el rendimiento de nuestra solución, obteniendo como resultado un 63% dado la muestra usada de 33 hablantes y más de 1000 muestras de voz y texto.