Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo

El interés en sistemas computacionales capaces de replicar voces ha crecido significativamente debido a sus aplicaciones en diferentes industrias tales como la ciberseguridad, eHealthcare y Producción audiovisual, entre otros. La implementación de técnicas de Deep Learning permiten crear modelos cap...

Full description

Autores:
Camero Amador, Rubén Dario Junior
Ramos Rossetes, Jaime Josue
Mejía Suárez, Omar Ángel
Tipo de recurso:
Fecha de publicación:
2021
Institución:
Universidad del Norte
Repositorio:
Repositorio Uninorte
Idioma:
spa
OAI Identifier:
oai:manglar.uninorte.edu.co:10584/9553
Acceso en línea:
http://hdl.handle.net/10584/9553
Palabra clave:
Text-to-speech
Voice Cloning
VISQOL
Deep Learning
Texto-a-voz
Aprendizaje Profundo
Clonador de voz
VISQOL
Rights
License
Universidad del Norte
id REPOUNORT2_81a04936576207d2a9907d6aa8f084f5
oai_identifier_str oai:manglar.uninorte.edu.co:10584/9553
network_acronym_str REPOUNORT2
network_name_str Repositorio Uninorte
repository_id_str
dc.title.es_ES.fl_str_mv Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo
dc.title.en_US.fl_str_mv Real-time voice cloning implementation for Spanish language using Deep learning algorithm
title Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo
spellingShingle Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo
Text-to-speech
Voice Cloning
VISQOL
Deep Learning
Texto-a-voz
Aprendizaje Profundo
Clonador de voz
VISQOL
title_short Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo
title_full Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo
title_fullStr Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo
title_full_unstemmed Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo
title_sort Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo
dc.creator.fl_str_mv Camero Amador, Rubén Dario Junior
Ramos Rossetes, Jaime Josue
Mejía Suárez, Omar Ángel
dc.contributor.advisor.none.fl_str_mv PhD. Zurek Varela, Eduardo Enrique
dc.contributor.author.none.fl_str_mv Camero Amador, Rubén Dario Junior
Ramos Rossetes, Jaime Josue
Mejía Suárez, Omar Ángel
dc.subject.en_US.fl_str_mv Text-to-speech
Voice Cloning
VISQOL
Deep Learning
topic Text-to-speech
Voice Cloning
VISQOL
Deep Learning
Texto-a-voz
Aprendizaje Profundo
Clonador de voz
VISQOL
dc.subject.es_ES.fl_str_mv Texto-a-voz
Aprendizaje Profundo
Clonador de voz
VISQOL
description El interés en sistemas computacionales capaces de replicar voces ha crecido significativamente debido a sus aplicaciones en diferentes industrias tales como la ciberseguridad, eHealthcare y Producción audiovisual, entre otros. La implementación de técnicas de Deep Learning permiten crear modelos capaces de lograr una gran precisión y efectividad en tareas de replicación de voz y transformación de texto a voz. Para la implementación de esta solución, se adaptó un sistema basado en redes neuronales para la síntesis de texto a voz (TTS) para hispanohablantes, dicho sistema es capaz de generar réplicas de voz para diferentes hablantes, aun cuando en el proceso de entrenamiento no se hayan tenido muestras de ellos. Las adaptaciones en nuestra versión creada se pueden clasificar en 2 tipos. La primera clasificación aborda todos los cambios efectuados en el código original, actualización de librerías requeridas y recambio de estas, esto con el fin de hacer compatible el código fuente a diversos entornos de ejecución tanto en la nube cómo locales. Además, de optimizar la solución a nuestro caso de uso. La segunda abarca la búsqueda, estandarización y transformación de los datos proveídos cómo entradas del modelo. La estructura de los datos de entrada que recibían los modelos del sintetizador y el codificador deben ajustarse a los requerimientos instanciados por los modelos, con el fin de lograr un mayor rendimiento y buena implementación de estos. En síntesis, se presentó una implementación del modelo TTS para el lenguaje español, en el que se muestra que es posible a partir de una corta muestra de audio y texto de entrada, reproducir o clonar la voz de una persona hispanohablante. Gracias a la métrica VISQOL, pudimos cuantificar el rendimiento de nuestra solución, obteniendo como resultado un 63% dado la muestra usada de 33 hablantes y más de 1000 muestras de voz y texto.
publishDate 2021
dc.date.accessioned.none.fl_str_mv 2021-06-10T20:32:48Z
dc.date.available.none.fl_str_mv 2021-06-10T20:32:48Z
dc.date.issued.none.fl_str_mv 2021-05-31
dc.type.es_ES.fl_str_mv article
dc.type.coar.fl_str_mv http://purl.org/coar/resource_type/c_6501
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/10584/9553
url http://hdl.handle.net/10584/9553
dc.language.iso.es_ES.fl_str_mv spa
language spa
dc.rights.es_ES.fl_str_mv Universidad del Norte
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv Universidad del Norte
http://purl.org/coar/access_right/c_abf2
dc.publisher.es_ES.fl_str_mv Barranquilla, Universidad del Norte, 2021
institution Universidad del Norte
bitstream.url.fl_str_mv https://manglar.uninorte.edu.co/bitstream/10584/9553/1/Proyecto-final-arquitectura-logica-espa%c3%b1ol-sin-fondo.png
https://manglar.uninorte.edu.co/bitstream/10584/9553/2/Proyecto-final-Arquitectura%20logica-ingles-sin_fondo.png
https://manglar.uninorte.edu.co/bitstream/10584/9553/3/Arquitectura-logica-espa%c3%b1ol-PDF.pdf
https://manglar.uninorte.edu.co/bitstream/10584/9553/4/Arquictura-logica-ingles-PDF.pdf
https://manglar.uninorte.edu.co/bitstream/10584/9553/5/license.txt
bitstream.checksum.fl_str_mv 0665808382739cd2ca88b08f1c6a57a2
31f682db2f3091ea2b4d074d96f07a1a
4e55ed15111cfe3f366f7152af5175d8
949ad06911e16a8f470265406ed91394
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Digital de la Universidad del Norte
repository.mail.fl_str_mv mauribe@uninorte.edu.co
_version_ 1812183100998811648
spelling PhD. Zurek Varela, Eduardo EnriqueCamero Amador, Rubén Dario JuniorRamos Rossetes, Jaime JosueMejía Suárez, Omar Ángel2021-06-10T20:32:48Z2021-06-10T20:32:48Z2021-05-31http://hdl.handle.net/10584/9553El interés en sistemas computacionales capaces de replicar voces ha crecido significativamente debido a sus aplicaciones en diferentes industrias tales como la ciberseguridad, eHealthcare y Producción audiovisual, entre otros. La implementación de técnicas de Deep Learning permiten crear modelos capaces de lograr una gran precisión y efectividad en tareas de replicación de voz y transformación de texto a voz. Para la implementación de esta solución, se adaptó un sistema basado en redes neuronales para la síntesis de texto a voz (TTS) para hispanohablantes, dicho sistema es capaz de generar réplicas de voz para diferentes hablantes, aun cuando en el proceso de entrenamiento no se hayan tenido muestras de ellos. Las adaptaciones en nuestra versión creada se pueden clasificar en 2 tipos. La primera clasificación aborda todos los cambios efectuados en el código original, actualización de librerías requeridas y recambio de estas, esto con el fin de hacer compatible el código fuente a diversos entornos de ejecución tanto en la nube cómo locales. Además, de optimizar la solución a nuestro caso de uso. La segunda abarca la búsqueda, estandarización y transformación de los datos proveídos cómo entradas del modelo. La estructura de los datos de entrada que recibían los modelos del sintetizador y el codificador deben ajustarse a los requerimientos instanciados por los modelos, con el fin de lograr un mayor rendimiento y buena implementación de estos. En síntesis, se presentó una implementación del modelo TTS para el lenguaje español, en el que se muestra que es posible a partir de una corta muestra de audio y texto de entrada, reproducir o clonar la voz de una persona hispanohablante. Gracias a la métrica VISQOL, pudimos cuantificar el rendimiento de nuestra solución, obteniendo como resultado un 63% dado la muestra usada de 33 hablantes y más de 1000 muestras de voz y texto.The Interest in computer systems capable of replicating voices has grown significantly due to its applications in different industries such as cybersecurity, eHealthcare and Audiovisual production, among others. The implementation of Deep Learning techniques allows the creation of models capable of achieving great precision and efficiency in voice replication and text-to-speech transformation tasks. For the implementation of this solution, a system based on neural networks was adapted for the synthesis of text to speech (TTS) for Spanish speakers, said system can generate voice replicas for different speakers, even when the training process does not have had samples of them. The adaptations in our created version can be classified into 2 types. The first classification addresses all the changes made to the original code, updating required libraries and their replacement, to make the source code compatible with various execution environments both in the cloud and locally. In addition, to optimize the solution to our use case. The second covers the search, standardization and transformation of the data provided as inputs to the model. The structure of the input data that received the models from the synthesizer and the encoder must conform to the requirements instantiated by the models, in order to achieve higher performance and good implementation of these. In summary, an implementation of the TTS model for the Spanish language was presented, which shows that it is possible from a short sample of input audio and text, to reproduce or clone the voice of a Spanish-speaking person. Thanks to the VISQOL metric, we were able to quantify the performance of our solution, obtaining as a result 63% given the used sample of 33 speakers and more than 1000 voice and text samples.spaBarranquilla, Universidad del Norte, 2021Universidad del Nortehttp://purl.org/coar/access_right/c_abf2Text-to-speechVoice CloningVISQOLDeep LearningTexto-a-vozAprendizaje ProfundoClonador de vozVISQOLImplementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundoReal-time voice cloning implementation for Spanish language using Deep learning algorithmarticlehttp://purl.org/coar/resource_type/c_6501ORIGINALProyecto-final-arquitectura-logica-español-sin-fondo.pngProyecto-final-arquitectura-logica-español-sin-fondo.pngArquitectura lógica de la solución en español, formato .png sin fondo.image/png95070https://manglar.uninorte.edu.co/bitstream/10584/9553/1/Proyecto-final-arquitectura-logica-espa%c3%b1ol-sin-fondo.png0665808382739cd2ca88b08f1c6a57a2MD51Proyecto-final-Arquitectura logica-ingles-sin_fondo.pngProyecto-final-Arquitectura logica-ingles-sin_fondo.pngArquitectura lógica de la solución en inglés, formato .png sin fondo.image/png94605https://manglar.uninorte.edu.co/bitstream/10584/9553/2/Proyecto-final-Arquitectura%20logica-ingles-sin_fondo.png31f682db2f3091ea2b4d074d96f07a1aMD52Arquitectura-logica-español-PDF.pdfArquitectura-logica-español-PDF.pdfArquitectura lógica de la solución en español, formato .pdfapplication/pdf90215https://manglar.uninorte.edu.co/bitstream/10584/9553/3/Arquitectura-logica-espa%c3%b1ol-PDF.pdf4e55ed15111cfe3f366f7152af5175d8MD53Arquictura-logica-ingles-PDF.pdfArquictura-logica-ingles-PDF.pdfArquitectura lógica de la solución en inglés, formato .pdfapplication/pdf91047https://manglar.uninorte.edu.co/bitstream/10584/9553/4/Arquictura-logica-ingles-PDF.pdf949ad06911e16a8f470265406ed91394MD54LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://manglar.uninorte.edu.co/bitstream/10584/9553/5/license.txt8a4605be74aa9ea9d79846c1fba20a33MD5510584/9553oai:manglar.uninorte.edu.co:10584/95532021-06-10 15:32:48.539Repositorio Digital de la Universidad del Nortemauribe@uninorte.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=