Identificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de voz

En este proyecto de grado se aborda el problema de clasificación de lenguaje hablado usando técnicas de Deep Learning. Específicamente, se implementan algunos clasificadores tanto binarios como multi-clase utilizando distintas arquitecturas de redes neuronales para ser entrenados y finalmente tener...

Full description

Autores:
Cruz Montealegre, Maria Camila
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2021
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/50650
Acceso en línea:
http://hdl.handle.net/1992/50650
Palabra clave:
Redes neurales (Computadores)
Aprendizaje automático (Inteligencia artificial)
Reconocimiento automático de la voz
Interfases con el usuario (Sistemas para computador)
Ingeniería
Rights
openAccess
License
https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
id UNIANDES2_f86ba20e00d3190da5176f4dc524676f
oai_identifier_str oai:repositorio.uniandes.edu.co:1992/50650
network_acronym_str UNIANDES2
network_name_str Séneca: repositorio Uniandes
repository_id_str
spelling Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdfinfo:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Lozano Martínez, Fernando Enriquevirtual::11256-1Cruz Montealegre, Maria Camilad574fd77-43a3-4a9e-8fa9-c7cc60783c45500Higuera Arias, CarolinaSegura Quijano, Fredy Enrique2021-08-03T16:05:46Z2021-08-03T16:05:46Z2021http://hdl.handle.net/1992/5065024070.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/En este proyecto de grado se aborda el problema de clasificación de lenguaje hablado usando técnicas de Deep Learning. Específicamente, se implementan algunos clasificadores tanto binarios como multi-clase utilizando distintas arquitecturas de redes neuronales para ser entrenados y finalmente tener modelos de clasificación para 7 idiomas distintos. Para esto, se realiza un preprocesamiento de los audios seguido de una generación de mel-espectrogramas para obtener las entradas de los modelos. Luego, se realiza la creación de la base de datos a partir de los mel espectrogramas y se procede a entrenar los modelos correspondientes. Por último, se evalúan cada uno de los clasificadores, se realizan comparaciones de desempeño entre ellos y se concluye que el mejor clasificador corresponde al modelo multiclase entrenado con la ResNet50 cuya Accuracy es de 96% y tiene un f1-score promedio de 0.95.This degree project addresses the problem of classification of spoken language using Deep Learning techniques. Specifically, some binary and multi-class classifiers are implemented using different neural network architectures to be trained and finally have classification models for 7 different languages. For this, a pre-processing of the audios is carried out followed by a generation of mel-spectrograms to obtain the inputs of the models. Then, the database is created from the spectrograms and the corresponding models are trained. Finally, each of the classifiers are evaluated, performance comparisons are made between them and it is concluded that the best classifier corresponds to the multiclass model trained with the ResNet50, whose Accuracy is 96% and has an average f1-score of 0.95.Ingeniero ElectrónicoPregrado9 páginasapplication/pdfspaUniversidad de los AndesIngeniería ElectrónicaFacultad de IngenieríaDepartamento de Ingeniería Eléctrica y ElectrónicaIdentificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de vozTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesishttp://purl.org/coar/resource_type/c_7a1fhttp://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/TPRedes neurales (Computadores)Aprendizaje automático (Inteligencia artificial)Reconocimiento automático de la vozInterfases con el usuario (Sistemas para computador)Ingeniería1234644894Publicationedd81d8c-e0b9-4c1f-bf04-eed0e12e755dvirtual::11256-1edd81d8c-e0b9-4c1f-bf04-eed0e12e755dvirtual::11256-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000025550virtual::11256-1ORIGINAL24070.pdfapplication/pdf951319https://repositorio.uniandes.edu.co/bitstreams/e4932038-fe43-4c87-aba2-f0becfdd2461/download6a120f005a94e50e1d26e7daea532a02MD51TEXT24070.pdf.txt24070.pdf.txtExtracted texttext/plain39672https://repositorio.uniandes.edu.co/bitstreams/0114069c-15f9-48e0-8583-613beefc3642/download63167fa502df088226c1b07ebcca6eefMD54THUMBNAIL24070.pdf.jpg24070.pdf.jpgIM Thumbnailimage/jpeg30965https://repositorio.uniandes.edu.co/bitstreams/ec5d9698-21cd-45be-9ba8-6009f67f14a5/downloada399c71c962c7751a94723fab61e98cdMD551992/50650oai:repositorio.uniandes.edu.co:1992/506502024-03-13 14:23:20.307https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdfopen.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co
dc.title.none.fl_str_mv Identificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de voz
title Identificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de voz
spellingShingle Identificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de voz
Redes neurales (Computadores)
Aprendizaje automático (Inteligencia artificial)
Reconocimiento automático de la voz
Interfases con el usuario (Sistemas para computador)
Ingeniería
title_short Identificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de voz
title_full Identificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de voz
title_fullStr Identificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de voz
title_full_unstemmed Identificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de voz
title_sort Identificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de voz
dc.creator.fl_str_mv Cruz Montealegre, Maria Camila
dc.contributor.advisor.none.fl_str_mv Lozano Martínez, Fernando Enrique
dc.contributor.author.none.fl_str_mv Cruz Montealegre, Maria Camila
dc.contributor.jury.none.fl_str_mv Higuera Arias, Carolina
Segura Quijano, Fredy Enrique
dc.subject.armarc.none.fl_str_mv Redes neurales (Computadores)
Aprendizaje automático (Inteligencia artificial)
Reconocimiento automático de la voz
Interfases con el usuario (Sistemas para computador)
topic Redes neurales (Computadores)
Aprendizaje automático (Inteligencia artificial)
Reconocimiento automático de la voz
Interfases con el usuario (Sistemas para computador)
Ingeniería
dc.subject.themes.none.fl_str_mv Ingeniería
description En este proyecto de grado se aborda el problema de clasificación de lenguaje hablado usando técnicas de Deep Learning. Específicamente, se implementan algunos clasificadores tanto binarios como multi-clase utilizando distintas arquitecturas de redes neuronales para ser entrenados y finalmente tener modelos de clasificación para 7 idiomas distintos. Para esto, se realiza un preprocesamiento de los audios seguido de una generación de mel-espectrogramas para obtener las entradas de los modelos. Luego, se realiza la creación de la base de datos a partir de los mel espectrogramas y se procede a entrenar los modelos correspondientes. Por último, se evalúan cada uno de los clasificadores, se realizan comparaciones de desempeño entre ellos y se concluye que el mejor clasificador corresponde al modelo multiclase entrenado con la ResNet50 cuya Accuracy es de 96% y tiene un f1-score promedio de 0.95.
publishDate 2021
dc.date.accessioned.none.fl_str_mv 2021-08-03T16:05:46Z
dc.date.available.none.fl_str_mv 2021-08-03T16:05:46Z
dc.date.issued.none.fl_str_mv 2021
dc.type.spa.fl_str_mv Trabajo de grado - Pregrado
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TP
format http://purl.org/coar/resource_type/c_7a1f
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/1992/50650
dc.identifier.pdf.none.fl_str_mv 24070.pdf
dc.identifier.instname.spa.fl_str_mv instname:Universidad de los Andes
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional Séneca
dc.identifier.repourl.spa.fl_str_mv repourl:https://repositorio.uniandes.edu.co/
url http://hdl.handle.net/1992/50650
identifier_str_mv 24070.pdf
instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
repourl:https://repositorio.uniandes.edu.co/
dc.language.iso.none.fl_str_mv spa
language spa
dc.rights.uri.*.fl_str_mv https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.none.fl_str_mv 9 páginas
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de los Andes
dc.publisher.program.none.fl_str_mv Ingeniería Electrónica
dc.publisher.faculty.none.fl_str_mv Facultad de Ingeniería
dc.publisher.department.none.fl_str_mv Departamento de Ingeniería Eléctrica y Electrónica
publisher.none.fl_str_mv Universidad de los Andes
institution Universidad de los Andes
bitstream.url.fl_str_mv https://repositorio.uniandes.edu.co/bitstreams/e4932038-fe43-4c87-aba2-f0becfdd2461/download
https://repositorio.uniandes.edu.co/bitstreams/0114069c-15f9-48e0-8583-613beefc3642/download
https://repositorio.uniandes.edu.co/bitstreams/ec5d9698-21cd-45be-9ba8-6009f67f14a5/download
bitstream.checksum.fl_str_mv 6a120f005a94e50e1d26e7daea532a02
63167fa502df088226c1b07ebcca6eef
a399c71c962c7751a94723fab61e98cd
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio institucional Séneca
repository.mail.fl_str_mv adminrepositorio@uniandes.edu.co
_version_ 1812133977202360320