Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo
El interés en sistemas computacionales capaces de replicar voces ha crecido significativamente debido a sus aplicaciones en diferentes industrias tales como la ciberseguridad, eHealthcare y Producción audiovisual, entre otros. La implementación de técnicas de Deep Learning permiten crear modelos cap...
- Autores:
-
Camero Amador, Rubén Dario Junior
Ramos Rossetes, Jaime Josue
Mejía Suárez, Omar Ángel
- Tipo de recurso:
- Fecha de publicación:
- 2021
- Institución:
- Universidad del Norte
- Repositorio:
- Repositorio Uninorte
- Idioma:
- spa
- OAI Identifier:
- oai:manglar.uninorte.edu.co:10584/9553
- Acceso en línea:
- http://hdl.handle.net/10584/9553
- Palabra clave:
- Text-to-speech
Voice Cloning
VISQOL
Deep Learning
Texto-a-voz
Aprendizaje Profundo
Clonador de voz
VISQOL
- Rights
- License
- Universidad del Norte
id |
REPOUNORT2_81a04936576207d2a9907d6aa8f084f5 |
---|---|
oai_identifier_str |
oai:manglar.uninorte.edu.co:10584/9553 |
network_acronym_str |
REPOUNORT2 |
network_name_str |
Repositorio Uninorte |
repository_id_str |
|
dc.title.es_ES.fl_str_mv |
Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo |
dc.title.en_US.fl_str_mv |
Real-time voice cloning implementation for Spanish language using Deep learning algorithm |
title |
Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo |
spellingShingle |
Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo Text-to-speech Voice Cloning VISQOL Deep Learning Texto-a-voz Aprendizaje Profundo Clonador de voz VISQOL |
title_short |
Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo |
title_full |
Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo |
title_fullStr |
Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo |
title_full_unstemmed |
Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo |
title_sort |
Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo |
dc.creator.fl_str_mv |
Camero Amador, Rubén Dario Junior Ramos Rossetes, Jaime Josue Mejía Suárez, Omar Ángel |
dc.contributor.advisor.none.fl_str_mv |
PhD. Zurek Varela, Eduardo Enrique |
dc.contributor.author.none.fl_str_mv |
Camero Amador, Rubén Dario Junior Ramos Rossetes, Jaime Josue Mejía Suárez, Omar Ángel |
dc.subject.en_US.fl_str_mv |
Text-to-speech Voice Cloning VISQOL Deep Learning |
topic |
Text-to-speech Voice Cloning VISQOL Deep Learning Texto-a-voz Aprendizaje Profundo Clonador de voz VISQOL |
dc.subject.es_ES.fl_str_mv |
Texto-a-voz Aprendizaje Profundo Clonador de voz VISQOL |
description |
El interés en sistemas computacionales capaces de replicar voces ha crecido significativamente debido a sus aplicaciones en diferentes industrias tales como la ciberseguridad, eHealthcare y Producción audiovisual, entre otros. La implementación de técnicas de Deep Learning permiten crear modelos capaces de lograr una gran precisión y efectividad en tareas de replicación de voz y transformación de texto a voz. Para la implementación de esta solución, se adaptó un sistema basado en redes neuronales para la síntesis de texto a voz (TTS) para hispanohablantes, dicho sistema es capaz de generar réplicas de voz para diferentes hablantes, aun cuando en el proceso de entrenamiento no se hayan tenido muestras de ellos. Las adaptaciones en nuestra versión creada se pueden clasificar en 2 tipos. La primera clasificación aborda todos los cambios efectuados en el código original, actualización de librerías requeridas y recambio de estas, esto con el fin de hacer compatible el código fuente a diversos entornos de ejecución tanto en la nube cómo locales. Además, de optimizar la solución a nuestro caso de uso. La segunda abarca la búsqueda, estandarización y transformación de los datos proveídos cómo entradas del modelo. La estructura de los datos de entrada que recibían los modelos del sintetizador y el codificador deben ajustarse a los requerimientos instanciados por los modelos, con el fin de lograr un mayor rendimiento y buena implementación de estos. En síntesis, se presentó una implementación del modelo TTS para el lenguaje español, en el que se muestra que es posible a partir de una corta muestra de audio y texto de entrada, reproducir o clonar la voz de una persona hispanohablante. Gracias a la métrica VISQOL, pudimos cuantificar el rendimiento de nuestra solución, obteniendo como resultado un 63% dado la muestra usada de 33 hablantes y más de 1000 muestras de voz y texto. |
publishDate |
2021 |
dc.date.accessioned.none.fl_str_mv |
2021-06-10T20:32:48Z |
dc.date.available.none.fl_str_mv |
2021-06-10T20:32:48Z |
dc.date.issued.none.fl_str_mv |
2021-05-31 |
dc.type.es_ES.fl_str_mv |
article |
dc.type.coar.fl_str_mv |
http://purl.org/coar/resource_type/c_6501 |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/10584/9553 |
url |
http://hdl.handle.net/10584/9553 |
dc.language.iso.es_ES.fl_str_mv |
spa |
language |
spa |
dc.rights.es_ES.fl_str_mv |
Universidad del Norte |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
rights_invalid_str_mv |
Universidad del Norte http://purl.org/coar/access_right/c_abf2 |
dc.publisher.es_ES.fl_str_mv |
Barranquilla, Universidad del Norte, 2021 |
institution |
Universidad del Norte |
bitstream.url.fl_str_mv |
https://manglar.uninorte.edu.co/bitstream/10584/9553/1/Proyecto-final-arquitectura-logica-espa%c3%b1ol-sin-fondo.png https://manglar.uninorte.edu.co/bitstream/10584/9553/2/Proyecto-final-Arquitectura%20logica-ingles-sin_fondo.png https://manglar.uninorte.edu.co/bitstream/10584/9553/3/Arquitectura-logica-espa%c3%b1ol-PDF.pdf https://manglar.uninorte.edu.co/bitstream/10584/9553/4/Arquictura-logica-ingles-PDF.pdf https://manglar.uninorte.edu.co/bitstream/10584/9553/5/license.txt |
bitstream.checksum.fl_str_mv |
0665808382739cd2ca88b08f1c6a57a2 31f682db2f3091ea2b4d074d96f07a1a 4e55ed15111cfe3f366f7152af5175d8 949ad06911e16a8f470265406ed91394 8a4605be74aa9ea9d79846c1fba20a33 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Digital de la Universidad del Norte |
repository.mail.fl_str_mv |
mauribe@uninorte.edu.co |
_version_ |
1812183100998811648 |
spelling |
PhD. Zurek Varela, Eduardo EnriqueCamero Amador, Rubén Dario JuniorRamos Rossetes, Jaime JosueMejía Suárez, Omar Ángel2021-06-10T20:32:48Z2021-06-10T20:32:48Z2021-05-31http://hdl.handle.net/10584/9553El interés en sistemas computacionales capaces de replicar voces ha crecido significativamente debido a sus aplicaciones en diferentes industrias tales como la ciberseguridad, eHealthcare y Producción audiovisual, entre otros. La implementación de técnicas de Deep Learning permiten crear modelos capaces de lograr una gran precisión y efectividad en tareas de replicación de voz y transformación de texto a voz. Para la implementación de esta solución, se adaptó un sistema basado en redes neuronales para la síntesis de texto a voz (TTS) para hispanohablantes, dicho sistema es capaz de generar réplicas de voz para diferentes hablantes, aun cuando en el proceso de entrenamiento no se hayan tenido muestras de ellos. Las adaptaciones en nuestra versión creada se pueden clasificar en 2 tipos. La primera clasificación aborda todos los cambios efectuados en el código original, actualización de librerías requeridas y recambio de estas, esto con el fin de hacer compatible el código fuente a diversos entornos de ejecución tanto en la nube cómo locales. Además, de optimizar la solución a nuestro caso de uso. La segunda abarca la búsqueda, estandarización y transformación de los datos proveídos cómo entradas del modelo. La estructura de los datos de entrada que recibían los modelos del sintetizador y el codificador deben ajustarse a los requerimientos instanciados por los modelos, con el fin de lograr un mayor rendimiento y buena implementación de estos. En síntesis, se presentó una implementación del modelo TTS para el lenguaje español, en el que se muestra que es posible a partir de una corta muestra de audio y texto de entrada, reproducir o clonar la voz de una persona hispanohablante. Gracias a la métrica VISQOL, pudimos cuantificar el rendimiento de nuestra solución, obteniendo como resultado un 63% dado la muestra usada de 33 hablantes y más de 1000 muestras de voz y texto.The Interest in computer systems capable of replicating voices has grown significantly due to its applications in different industries such as cybersecurity, eHealthcare and Audiovisual production, among others. The implementation of Deep Learning techniques allows the creation of models capable of achieving great precision and efficiency in voice replication and text-to-speech transformation tasks. For the implementation of this solution, a system based on neural networks was adapted for the synthesis of text to speech (TTS) for Spanish speakers, said system can generate voice replicas for different speakers, even when the training process does not have had samples of them. The adaptations in our created version can be classified into 2 types. The first classification addresses all the changes made to the original code, updating required libraries and their replacement, to make the source code compatible with various execution environments both in the cloud and locally. In addition, to optimize the solution to our use case. The second covers the search, standardization and transformation of the data provided as inputs to the model. The structure of the input data that received the models from the synthesizer and the encoder must conform to the requirements instantiated by the models, in order to achieve higher performance and good implementation of these. In summary, an implementation of the TTS model for the Spanish language was presented, which shows that it is possible from a short sample of input audio and text, to reproduce or clone the voice of a Spanish-speaking person. Thanks to the VISQOL metric, we were able to quantify the performance of our solution, obtaining as a result 63% given the used sample of 33 speakers and more than 1000 voice and text samples.spaBarranquilla, Universidad del Norte, 2021Universidad del Nortehttp://purl.org/coar/access_right/c_abf2Text-to-speechVoice CloningVISQOLDeep LearningTexto-a-vozAprendizaje ProfundoClonador de vozVISQOLImplementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundoReal-time voice cloning implementation for Spanish language using Deep learning algorithmarticlehttp://purl.org/coar/resource_type/c_6501ORIGINALProyecto-final-arquitectura-logica-español-sin-fondo.pngProyecto-final-arquitectura-logica-español-sin-fondo.pngArquitectura lógica de la solución en español, formato .png sin fondo.image/png95070https://manglar.uninorte.edu.co/bitstream/10584/9553/1/Proyecto-final-arquitectura-logica-espa%c3%b1ol-sin-fondo.png0665808382739cd2ca88b08f1c6a57a2MD51Proyecto-final-Arquitectura logica-ingles-sin_fondo.pngProyecto-final-Arquitectura logica-ingles-sin_fondo.pngArquitectura lógica de la solución en inglés, formato .png sin fondo.image/png94605https://manglar.uninorte.edu.co/bitstream/10584/9553/2/Proyecto-final-Arquitectura%20logica-ingles-sin_fondo.png31f682db2f3091ea2b4d074d96f07a1aMD52Arquitectura-logica-español-PDF.pdfArquitectura-logica-español-PDF.pdfArquitectura lógica de la solución en español, formato .pdfapplication/pdf90215https://manglar.uninorte.edu.co/bitstream/10584/9553/3/Arquitectura-logica-espa%c3%b1ol-PDF.pdf4e55ed15111cfe3f366f7152af5175d8MD53Arquictura-logica-ingles-PDF.pdfArquictura-logica-ingles-PDF.pdfArquitectura lógica de la solución en inglés, formato .pdfapplication/pdf91047https://manglar.uninorte.edu.co/bitstream/10584/9553/4/Arquictura-logica-ingles-PDF.pdf949ad06911e16a8f470265406ed91394MD54LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://manglar.uninorte.edu.co/bitstream/10584/9553/5/license.txt8a4605be74aa9ea9d79846c1fba20a33MD5510584/9553oai:manglar.uninorte.edu.co:10584/95532021-06-10 15:32:48.539Repositorio Digital de la Universidad del Nortemauribe@uninorte.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |