Diseño y prototipado de aplicación para identificación de individuos a partir de su voz usando técnicas de machine learning

El reconocimiento de la voz es un tema que ha empezado a cobrar interés en los últimos años. En especial, el reconocimiento de un individuo a partir de su voz está siendo ampliamente tratado desde el campo de la inteligencia artificial. Claro está, la mayoría de publicaciones y proyectos usan el ing...

Full description

Autores:
Polo Bolaño, José David
Villa Narvaez, Carlos Daniel
Tovar Agudelo, Wilson Andrés
Tipo de recurso:
Fecha de publicación:
2020
Institución:
Universidad del Norte
Repositorio:
Repositorio Uninorte
Idioma:
spa
OAI Identifier:
oai:manglar.uninorte.edu.co:10584/8865
Acceso en línea:
http://hdl.handle.net/10584/8865
Palabra clave:
Neural networks
ASR
MFCC
Deep Learning
Dataset
Speaker Recognition
LSTM
Convolution
Speech Recognition
Redes neuronales
Aprendizaje Profundo
Conjunto de datos
Reconocimiento de hablantes
Reconocimiento del habla
Convolución
Coeficientes Cepstrales en las Frecuencias de Mel
Rights
License
Universidad del Norte
id REPOUNORT2_b73022db739ccc9c2d472ee7ae55bfb1
oai_identifier_str oai:manglar.uninorte.edu.co:10584/8865
network_acronym_str REPOUNORT2
network_name_str Repositorio Uninorte
repository_id_str
dc.title.es_ES.fl_str_mv Diseño y prototipado de aplicación para identificación de individuos a partir de su voz usando técnicas de machine learning
dc.title.en_US.fl_str_mv Design and prototyping of application for identification of individuals from their voice using machine learning techniques
title Diseño y prototipado de aplicación para identificación de individuos a partir de su voz usando técnicas de machine learning
spellingShingle Diseño y prototipado de aplicación para identificación de individuos a partir de su voz usando técnicas de machine learning
Neural networks
ASR
MFCC
Deep Learning
Dataset
Speaker Recognition
LSTM
Convolution
Speech Recognition
Redes neuronales
Aprendizaje Profundo
Conjunto de datos
Reconocimiento de hablantes
Reconocimiento del habla
Convolución
Coeficientes Cepstrales en las Frecuencias de Mel
title_short Diseño y prototipado de aplicación para identificación de individuos a partir de su voz usando técnicas de machine learning
title_full Diseño y prototipado de aplicación para identificación de individuos a partir de su voz usando técnicas de machine learning
title_fullStr Diseño y prototipado de aplicación para identificación de individuos a partir de su voz usando técnicas de machine learning
title_full_unstemmed Diseño y prototipado de aplicación para identificación de individuos a partir de su voz usando técnicas de machine learning
title_sort Diseño y prototipado de aplicación para identificación de individuos a partir de su voz usando técnicas de machine learning
dc.creator.fl_str_mv Polo Bolaño, José David
Villa Narvaez, Carlos Daniel
Tovar Agudelo, Wilson Andrés
dc.contributor.advisor.none.fl_str_mv Zurek Varela, Eduardo Enrrique
Nieto Bernal, Wilson
dc.contributor.author.none.fl_str_mv Polo Bolaño, José David
Villa Narvaez, Carlos Daniel
Tovar Agudelo, Wilson Andrés
dc.subject.en_US.fl_str_mv Neural networks
ASR
MFCC
Deep Learning
Dataset
Speaker Recognition
LSTM
Convolution
Speech Recognition
topic Neural networks
ASR
MFCC
Deep Learning
Dataset
Speaker Recognition
LSTM
Convolution
Speech Recognition
Redes neuronales
Aprendizaje Profundo
Conjunto de datos
Reconocimiento de hablantes
Reconocimiento del habla
Convolución
Coeficientes Cepstrales en las Frecuencias de Mel
dc.subject.es_ES.fl_str_mv Redes neuronales
Aprendizaje Profundo
Conjunto de datos
Reconocimiento de hablantes
Reconocimiento del habla
Convolución
Coeficientes Cepstrales en las Frecuencias de Mel
description El reconocimiento de la voz es un tema que ha empezado a cobrar interés en los últimos años. En especial, el reconocimiento de un individuo a partir de su voz está siendo ampliamente tratado desde el campo de la inteligencia artificial. Claro está, la mayoría de publicaciones y proyectos usan el inglés como lenguaje principal dejando de lado otros idiomas como el español. Es por tal motivo que en este proyecto se implementa un sistema de reconocimiento automático de hablantes hispanos a partir de su voz usando técnicas de machine learning. Para la predicción se usaron los coeficientes cepstrales en las frecuencias de mel que, de acuerdo a (R. Sharma, et. al, 2017) representan el habla basado en la percepción auditiva humana, los cuales sirven como entrada de las dos redes. Para el reconocimiento del hablante implementamos un modelo de red neuronal convolucional con una salida para la probabilidad de las N personas y para el reconocimiento del dígito usamos una red neuronal similar, pero con una capa de memoria a largo plazo (LSTM) que también es usada por (Senior et al., 2015) para la tarea del reconocimiento del habla. Finalmente, tenemos una capa de salida de 10 neuronas, las cuales representan la probabilidad para cada dígito. Nuestro modelo alcanza una precisión de entre el 90% y 93%. Los datos fueron recolectados usando una aplicación web propia que se construyó como parte del protocolo de recolección de datos del proyecto. Este conjunto de datos contiene los audios de un determinado grupo de personas, los cuales se pasan a través de un proceso de limpieza para la eliminación del ruido. Cada persona grabó un total de 50 audios en donde pronuncia cada uno de los dígitos del 0 al 9. Gracias a esto podremos determinar qué persona dijo cualquier dígito y además, el dígito que dijo esa persona.
publishDate 2020
dc.date.accessioned.none.fl_str_mv 2020-06-01T23:10:38Z
dc.date.available.none.fl_str_mv 2020-06-01T23:10:38Z
dc.date.issued.none.fl_str_mv 2020-05-30
dc.type.es_ES.fl_str_mv article
dc.type.coar.fl_str_mv http://purl.org/coar/resource_type/c_6501
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/10584/8865
url http://hdl.handle.net/10584/8865
dc.language.iso.es_ES.fl_str_mv spa
language spa
dc.rights.es_ES.fl_str_mv Universidad del Norte
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv Universidad del Norte
http://purl.org/coar/access_right/c_abf2
dc.publisher.es_ES.fl_str_mv Barranquilla, Universidad del Norte, 2020
institution Universidad del Norte
bitstream.url.fl_str_mv http://manglar.uninorte.edu.co/bitstream/10584/8865/5/license.txt
http://manglar.uninorte.edu.co/bitstream/10584/8865/1/Diagrama%20de%20flujo-Espa%c3%b1ol.png
http://manglar.uninorte.edu.co/bitstream/10584/8865/2/Diagrama%20de%20flujo-Espa%c3%b1ol.pdf
http://manglar.uninorte.edu.co/bitstream/10584/8865/3/Diagrama%20de%20flujo-Ingl%c3%a9s.png
http://manglar.uninorte.edu.co/bitstream/10584/8865/4/Diagrama%20de%20flujo-Ingl%c3%a9s.pdf
bitstream.checksum.fl_str_mv 8a4605be74aa9ea9d79846c1fba20a33
a48c1cfd3397cceaea9c62751a5332b1
5cabbe4674badd11ccf125412c744034
b4839f98f1d81072d4530695325ffe55
69fbca5f121381b634543e0820d6521b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Digital de la Universidad del Norte
repository.mail.fl_str_mv mauribe@uninorte.edu.co
_version_ 1812183089947869184
spelling Zurek Varela, Eduardo EnrriqueNieto Bernal, WilsonPolo Bolaño, José DavidVilla Narvaez, Carlos DanielTovar Agudelo, Wilson Andrés2020-06-01T23:10:38Z2020-06-01T23:10:38Z2020-05-30http://hdl.handle.net/10584/8865El reconocimiento de la voz es un tema que ha empezado a cobrar interés en los últimos años. En especial, el reconocimiento de un individuo a partir de su voz está siendo ampliamente tratado desde el campo de la inteligencia artificial. Claro está, la mayoría de publicaciones y proyectos usan el inglés como lenguaje principal dejando de lado otros idiomas como el español. Es por tal motivo que en este proyecto se implementa un sistema de reconocimiento automático de hablantes hispanos a partir de su voz usando técnicas de machine learning. Para la predicción se usaron los coeficientes cepstrales en las frecuencias de mel que, de acuerdo a (R. Sharma, et. al, 2017) representan el habla basado en la percepción auditiva humana, los cuales sirven como entrada de las dos redes. Para el reconocimiento del hablante implementamos un modelo de red neuronal convolucional con una salida para la probabilidad de las N personas y para el reconocimiento del dígito usamos una red neuronal similar, pero con una capa de memoria a largo plazo (LSTM) que también es usada por (Senior et al., 2015) para la tarea del reconocimiento del habla. Finalmente, tenemos una capa de salida de 10 neuronas, las cuales representan la probabilidad para cada dígito. Nuestro modelo alcanza una precisión de entre el 90% y 93%. Los datos fueron recolectados usando una aplicación web propia que se construyó como parte del protocolo de recolección de datos del proyecto. Este conjunto de datos contiene los audios de un determinado grupo de personas, los cuales se pasan a través de un proceso de limpieza para la eliminación del ruido. Cada persona grabó un total de 50 audios en donde pronuncia cada uno de los dígitos del 0 al 9. Gracias a esto podremos determinar qué persona dijo cualquier dígito y además, el dígito que dijo esa persona.Voice recognition has begun to attract interest in recent years. In particular, the recognition of an individual from his voice is being widely addressed from the field of artificial intelligence. Of course, most publications and projects use English as the base language, leaving aside other languages such as Spanish. That is why in this project an automatic recognition system of Spanish speakers from their voice is implemented using machine learning techniques. For the prediction we used the mel frequency cepstral coefficients, which according to (R. Sharma, et. al, 2017) represent speech based on human auditory perception and serve as input for the two networks. For speaker recognition we implemented a convolutional neural network model with an output for the probability of N persons and for digit recognition we used a similar neural network, but with a long-term memory layer (LSTM), used by (Senior et al., 2015) for the speech recognition task. Finally, we have an output layer of 10 neurons which represents the probability for each digit. Our model achieves an accuracy of between 90% and 93%. The data was collected using a custom web application that was built as part of the project's data collection protocol. This dataset contains the audios of a certain group of people, which are then passed through a clean-up process to remove the noise. Each person recorded a total of 50 audios where they pronounce each digit from 0 to 9. As a result, we will be able to determine which person said any digit and also the digit that person said.spaBarranquilla, Universidad del Norte, 2020Universidad del Nortehttp://purl.org/coar/access_right/c_abf2Neural networksASRMFCCDeep LearningDatasetSpeaker RecognitionLSTMConvolutionSpeech RecognitionRedes neuronalesAprendizaje ProfundoConjunto de datosReconocimiento de hablantesReconocimiento del hablaConvoluciónCoeficientes Cepstrales en las Frecuencias de MelDiseño y prototipado de aplicación para identificación de individuos a partir de su voz usando técnicas de machine learningDesign and prototyping of application for identification of individuals from their voice using machine learning techniquesarticlehttp://purl.org/coar/resource_type/c_6501LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://manglar.uninorte.edu.co/bitstream/10584/8865/5/license.txt8a4605be74aa9ea9d79846c1fba20a33MD55ORIGINALDiagrama de flujo-Español.pngDiagrama de flujo-Español.pngDiagrama de la soluciónimage/png26781http://manglar.uninorte.edu.co/bitstream/10584/8865/1/Diagrama%20de%20flujo-Espa%c3%b1ol.pnga48c1cfd3397cceaea9c62751a5332b1MD51Diagrama de flujo-Español.pdfDiagrama de flujo-Español.pdfDiagrama de la soluciónapplication/pdf201415http://manglar.uninorte.edu.co/bitstream/10584/8865/2/Diagrama%20de%20flujo-Espa%c3%b1ol.pdf5cabbe4674badd11ccf125412c744034MD52Diagrama de flujo-Inglés.pngDiagrama de flujo-Inglés.pngSolution diagramimage/png24622http://manglar.uninorte.edu.co/bitstream/10584/8865/3/Diagrama%20de%20flujo-Ingl%c3%a9s.pngb4839f98f1d81072d4530695325ffe55MD53Diagrama de flujo-Inglés.pdfDiagrama de flujo-Inglés.pdfSolution diagramapplication/pdf201422http://manglar.uninorte.edu.co/bitstream/10584/8865/4/Diagrama%20de%20flujo-Ingl%c3%a9s.pdf69fbca5f121381b634543e0820d6521bMD5410584/8865oai:manglar.uninorte.edu.co:10584/88652020-06-01 18:10:38.842Repositorio Digital de la Universidad del Nortemauribe@uninorte.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=