Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo
El interés en sistemas computacionales capaces de replicar voces ha crecido significativamente debido a sus aplicaciones en diferentes industrias tales como la ciberseguridad, eHealthcare y Producción audiovisual, entre otros. La implementación de técnicas de Deep Learning permiten crear modelos cap...
- Autores:
-
Camero Amador, Rubén Dario Junior
Ramos Rossetes, Jaime Josue
Mejía Suárez, Omar Ángel
- Tipo de recurso:
- Fecha de publicación:
- 2021
- Institución:
- Universidad del Norte
- Repositorio:
- Repositorio Uninorte
- Idioma:
- spa
- OAI Identifier:
- oai:manglar.uninorte.edu.co:10584/9553
- Acceso en línea:
- http://hdl.handle.net/10584/9553
- Palabra clave:
- Text-to-speech
Voice Cloning
VISQOL
Deep Learning
Texto-a-voz
Aprendizaje Profundo
Clonador de voz
VISQOL
- Rights
- License
- Universidad del Norte
Summary: | El interés en sistemas computacionales capaces de replicar voces ha crecido significativamente debido a sus aplicaciones en diferentes industrias tales como la ciberseguridad, eHealthcare y Producción audiovisual, entre otros. La implementación de técnicas de Deep Learning permiten crear modelos capaces de lograr una gran precisión y efectividad en tareas de replicación de voz y transformación de texto a voz. Para la implementación de esta solución, se adaptó un sistema basado en redes neuronales para la síntesis de texto a voz (TTS) para hispanohablantes, dicho sistema es capaz de generar réplicas de voz para diferentes hablantes, aun cuando en el proceso de entrenamiento no se hayan tenido muestras de ellos. Las adaptaciones en nuestra versión creada se pueden clasificar en 2 tipos. La primera clasificación aborda todos los cambios efectuados en el código original, actualización de librerías requeridas y recambio de estas, esto con el fin de hacer compatible el código fuente a diversos entornos de ejecución tanto en la nube cómo locales. Además, de optimizar la solución a nuestro caso de uso. La segunda abarca la búsqueda, estandarización y transformación de los datos proveídos cómo entradas del modelo. La estructura de los datos de entrada que recibían los modelos del sintetizador y el codificador deben ajustarse a los requerimientos instanciados por los modelos, con el fin de lograr un mayor rendimiento y buena implementación de estos. En síntesis, se presentó una implementación del modelo TTS para el lenguaje español, en el que se muestra que es posible a partir de una corta muestra de audio y texto de entrada, reproducir o clonar la voz de una persona hispanohablante. Gracias a la métrica VISQOL, pudimos cuantificar el rendimiento de nuestra solución, obteniendo como resultado un 63% dado la muestra usada de 33 hablantes y más de 1000 muestras de voz y texto. |
---|