Separación de hablantes en tiempo real usando técnicas de Deep Learning

RESUMEN : La separación de hablantes (Speaker Separation/Multitalker separation), es un tarea que consiste en separar en diferentes audios, las intervenciones individuales de los hablantes involucrados a partir de una mezcla auditiva. Tarea que permitiría mejorar la interacción entre humanos y siste...

Full description

Autores:: Arango Sánchez, Jose Alberto

Tipo de recurso:: Trabajo de grado de pregrado

Fecha de publicación:: 2022

Institución:: Universidad de Antioquia

Repositorio:: Repositorio UdeA

Idioma:: spa

id	UDEA2_ecd01dbc7d6cf32fed2345b51f80c501
oai_identifier_str	oai:bibliotecadigital.udea.edu.co:10495/28981
network_acronym_str	UDEA2
network_name_str	Repositorio UdeA
repository_id_str
dc.title.spa.fl_str_mv	Separación de hablantes en tiempo real usando técnicas de Deep Learning
title	Separación de hablantes en tiempo real usando técnicas de Deep Learning
spellingShingle	Separación de hablantes en tiempo real usando técnicas de Deep Learning Audiología Audiology Reproducción del sonido - técnicas digitales Sound--Recording and reproducing--Digital techniques Audio digital Digital audio Sistemas systems http://aims.fao.org/aos/agrovoc/c_330985
title_short	Separación de hablantes en tiempo real usando técnicas de Deep Learning
title_full	Separación de hablantes en tiempo real usando técnicas de Deep Learning
title_fullStr	Separación de hablantes en tiempo real usando técnicas de Deep Learning
title_full_unstemmed	Separación de hablantes en tiempo real usando técnicas de Deep Learning
title_sort	Separación de hablantes en tiempo real usando técnicas de Deep Learning
dc.creator.fl_str_mv	Arango Sánchez, Jose Alberto
dc.contributor.advisor.none.fl_str_mv	Arias Londoño, Julián David
dc.contributor.author.none.fl_str_mv	Arango Sánchez, Jose Alberto
dc.subject.lemb.none.fl_str_mv	Audiología Audiology Reproducción del sonido - técnicas digitales Sound--Recording and reproducing--Digital techniques Audio digital Digital audio
topic	Audiología Audiology Reproducción del sonido - técnicas digitales Sound--Recording and reproducing--Digital techniques Audio digital Digital audio Sistemas systems http://aims.fao.org/aos/agrovoc/c_330985
dc.subject.agrovoc.none.fl_str_mv	Sistemas systems
dc.subject.agrovocuri.none.fl_str_mv	http://aims.fao.org/aos/agrovoc/c_330985
description	RESUMEN : La separación de hablantes (Speaker Separation/Multitalker separation), es un tarea que consiste en separar en diferentes audios, las intervenciones individuales de los hablantes involucrados a partir de una mezcla auditiva. Tarea que permitiría mejorar la interacción entre humanos y sistemas, a través del habla, ya que serviría como filtro de información. Durante este trabajo de grado, exploramos el comportamiento de 3 aproximacio- nes del estado del arte (DPRNN, SepFormer, Conv-TasNet), usando un corpus de grabaciones de llamadas sobre canal telefónico en el idioma español[9], con hablantes de diferentes partes de América latina. Se seleccionó Conv-TasNet como la arquitectura base por su desempeño, ya que logró una relación señal distorsión invariante en la escala (SI-SDR) de 6.9 dB, luego realizamos múltiples experimentos con esta arquitectura, con el objetivo de obtener mejores resultados, consiguiendo así un modelo con un SI-SDR de 9.9 dB. Luego de manera experimental, se identifico una relación entre la similitud entre hablantes y el desempeño del modelo, por lo tanto se planteó una mejora a la arquitectura ConvTasNet, introduciendo un término en la función de costo de la arquitectura original. Dicho término esta relacionado con la similitud entre hablantes y utiliza un Speech embedding para el cálculo de di- cha similitud. Con esta mejora se logró un SI-SDR de 10.6 dB. Finalmente el modelo ConvTasNet modificado, se desplegó en una infraestructura que permitió su ejecución en tiempo real, sin embargo para garantizar el concepto de tiempo real, utilizamos segmentos de audio de 1 segundo, tiempo en el cual, por lo general solo 1 hablante interviene, lo cual es una condición distante de la realidad conocida por el modelo entrenado (longitud de las muestras de entrenamiento y validación).
publishDate	2022
dc.date.accessioned.none.fl_str_mv	2022-06-06T12:41:11Z
dc.date.available.none.fl_str_mv	2022-06-06T12:41:11Z
dc.date.issued.none.fl_str_mv	2022
dc.type.spa.fl_str_mv	info:eu-repo/semantics/bachelorThesis
dc.type.coarversion.fl_str_mv	http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.hasversion.spa.fl_str_mv	info:eu-repo/semantics/draft
dc.type.coar.spa.fl_str_mv	http://purl.org/coar/resource_type/c_7a1f
dc.type.redcol.spa.fl_str_mv	https://purl.org/redcol/resource_type/TP
dc.type.local.spa.fl_str_mv	Tesis/Trabajo de grado - Monografía - Pregrado
format	http://purl.org/coar/resource_type/c_7a1f
status_str	draft
dc.identifier.uri.none.fl_str_mv	http://hdl.handle.net/10495/28981
url	http://hdl.handle.net/10495/28981
dc.language.iso.spa.fl_str_mv	spa
language	spa
dc.rights.spa.fl_str_mv	info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv	http://creativecommons.org/licenses/by-nc-sa/2.5/co/
dc.rights.accessrights.spa.fl_str_mv	http://purl.org/coar/access_right/c_abf2
dc.rights.creativecommons.spa.fl_str_mv	https://creativecommons.org/licenses/by-nc-sa/4.0/
eu_rights_str_mv	openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-sa/2.5/co/ http://purl.org/coar/access_right/c_abf2 https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.format.extent.spa.fl_str_mv	70
dc.format.mimetype.spa.fl_str_mv	application/pdf
dc.publisher.group.spa.fl_str_mv	Intelligent Information Systems Lab.
dc.publisher.place.spa.fl_str_mv	Medellín - Colombia
institution	Universidad de Antioquia
bitstream.url.fl_str_mv	https://bibliotecadigital.udea.edu.co/bitstream/10495/28981/1/ArangoJose_2022_SeparacionHablantesDL.pdf https://bibliotecadigital.udea.edu.co/bitstream/10495/28981/3/license_rdf https://bibliotecadigital.udea.edu.co/bitstream/10495/28981/4/license.txt
bitstream.checksum.fl_str_mv	9023fc54a332e831da7f3cefde3b579a e2060682c9c70d4d30c83c51448f4eed 8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositorio Institucional Universidad de Antioquia
repository.mail.fl_str_mv	andres.perez@udea.edu.co
_version_	1837098201658687488
spelling	Arias Londoño, Julián DavidArango Sánchez, Jose Alberto2022-06-06T12:41:11Z2022-06-06T12:41:11Z2022http://hdl.handle.net/10495/28981RESUMEN : La separación de hablantes (Speaker Separation/Multitalker separation), es un tarea que consiste en separar en diferentes audios, las intervenciones individuales de los hablantes involucrados a partir de una mezcla auditiva. Tarea que permitiría mejorar la interacción entre humanos y sistemas, a través del habla, ya que serviría como filtro de información. Durante este trabajo de grado, exploramos el comportamiento de 3 aproximacio- nes del estado del arte (DPRNN, SepFormer, Conv-TasNet), usando un corpus de grabaciones de llamadas sobre canal telefónico en el idioma español[9], con hablantes de diferentes partes de América latina. Se seleccionó Conv-TasNet como la arquitectura base por su desempeño, ya que logró una relación señal distorsión invariante en la escala (SI-SDR) de 6.9 dB, luego realizamos múltiples experimentos con esta arquitectura, con el objetivo de obtener mejores resultados, consiguiendo así un modelo con un SI-SDR de 9.9 dB. Luego de manera experimental, se identifico una relación entre la similitud entre hablantes y el desempeño del modelo, por lo tanto se planteó una mejora a la arquitectura ConvTasNet, introduciendo un término en la función de costo de la arquitectura original. Dicho término esta relacionado con la similitud entre hablantes y utiliza un Speech embedding para el cálculo de di- cha similitud. Con esta mejora se logró un SI-SDR de 10.6 dB. Finalmente el modelo ConvTasNet modificado, se desplegó en una infraestructura que permitió su ejecución en tiempo real, sin embargo para garantizar el concepto de tiempo real, utilizamos segmentos de audio de 1 segundo, tiempo en el cual, por lo general solo 1 hablante interviene, lo cual es una condición distante de la realidad conocida por el modelo entrenado (longitud de las muestras de entrenamiento y validación).Código del proyecto: https://github.com/DW-Speech-Separation Dataset del proyecto: https://huggingface.co/datasets/josearangos/spanish-calls-corpus-Friends, https://huggingface.co/datasets/josearangos/spanish-calls-corpus-Home, https://huggingface.co/datasets/josearangos/spanish-calls-corpus-Caribbean70application/pdfspainfo:eu-repo/semantics/draftinfo:eu-repo/semantics/bachelorThesishttp://purl.org/coar/resource_type/c_7a1fhttps://purl.org/redcol/resource_type/TPTesis/Trabajo de grado - Monografía - Pregradohttp://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/co/http://purl.org/coar/access_right/c_abf2https://creativecommons.org/licenses/by-nc-sa/4.0/Separación de hablantes en tiempo real usando técnicas de Deep LearningIntelligent Information Systems Lab.Medellín - ColombiaAudiologíaAudiologyReproducción del sonido - técnicas digitalesSound--Recording and reproducing--Digital techniquesAudio digitalDigital audioSistemassystemshttp://aims.fao.org/aos/agrovoc/c_330985https://github.com/DW-Speech-SeparationIngeniería de SistemasPregradoFacultad de Ingeniería. Ingeniería de SistemasUniversidad de AntioquiaORIGINALArangoJose_2022_SeparacionHablantesDL.pdfArangoJose_2022_SeparacionHablantesDL.pdfTrabajo de grado de pregradoapplication/pdf3937752https://bibliotecadigital.udea.edu.co/bitstream/10495/28981/1/ArangoJose_2022_SeparacionHablantesDL.pdf9023fc54a332e831da7f3cefde3b579aMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81051https://bibliotecadigital.udea.edu.co/bitstream/10495/28981/3/license_rdfe2060682c9c70d4d30c83c51448f4eedMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://bibliotecadigital.udea.edu.co/bitstream/10495/28981/4/license.txt8a4605be74aa9ea9d79846c1fba20a33MD5410495/28981oai:bibliotecadigital.udea.edu.co:10495/289812022-06-06 07:42:35.729Repositorio Institucional Universidad de Antioquiaandres.perez@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=

Separación de hablantes en tiempo real usando técnicas de Deep Learning

Publicaciones similares