Identificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de voz
En este proyecto de grado se aborda el problema de clasificación de lenguaje hablado usando técnicas de Deep Learning. Específicamente, se implementan algunos clasificadores tanto binarios como multi-clase utilizando distintas arquitecturas de redes neuronales para ser entrenados y finalmente tener...
- Autores:
-
Cruz Montealegre, Maria Camila
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2021
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/50650
- Acceso en línea:
- http://hdl.handle.net/1992/50650
- Palabra clave:
- Redes neurales (Computadores)
Aprendizaje automático (Inteligencia artificial)
Reconocimiento automático de la voz
Interfases con el usuario (Sistemas para computador)
Ingeniería
- Rights
- openAccess
- License
- https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
id |
UNIANDES2_f86ba20e00d3190da5176f4dc524676f |
---|---|
oai_identifier_str |
oai:repositorio.uniandes.edu.co:1992/50650 |
network_acronym_str |
UNIANDES2 |
network_name_str |
Séneca: repositorio Uniandes |
repository_id_str |
|
spelling |
Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdfinfo:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Lozano Martínez, Fernando Enriquevirtual::11256-1Cruz Montealegre, Maria Camilad574fd77-43a3-4a9e-8fa9-c7cc60783c45500Higuera Arias, CarolinaSegura Quijano, Fredy Enrique2021-08-03T16:05:46Z2021-08-03T16:05:46Z2021http://hdl.handle.net/1992/5065024070.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/En este proyecto de grado se aborda el problema de clasificación de lenguaje hablado usando técnicas de Deep Learning. Específicamente, se implementan algunos clasificadores tanto binarios como multi-clase utilizando distintas arquitecturas de redes neuronales para ser entrenados y finalmente tener modelos de clasificación para 7 idiomas distintos. Para esto, se realiza un preprocesamiento de los audios seguido de una generación de mel-espectrogramas para obtener las entradas de los modelos. Luego, se realiza la creación de la base de datos a partir de los mel espectrogramas y se procede a entrenar los modelos correspondientes. Por último, se evalúan cada uno de los clasificadores, se realizan comparaciones de desempeño entre ellos y se concluye que el mejor clasificador corresponde al modelo multiclase entrenado con la ResNet50 cuya Accuracy es de 96% y tiene un f1-score promedio de 0.95.This degree project addresses the problem of classification of spoken language using Deep Learning techniques. Specifically, some binary and multi-class classifiers are implemented using different neural network architectures to be trained and finally have classification models for 7 different languages. For this, a pre-processing of the audios is carried out followed by a generation of mel-spectrograms to obtain the inputs of the models. Then, the database is created from the spectrograms and the corresponding models are trained. Finally, each of the classifiers are evaluated, performance comparisons are made between them and it is concluded that the best classifier corresponds to the multiclass model trained with the ResNet50, whose Accuracy is 96% and has an average f1-score of 0.95.Ingeniero ElectrónicoPregrado9 páginasapplication/pdfspaUniversidad de los AndesIngeniería ElectrónicaFacultad de IngenieríaDepartamento de Ingeniería Eléctrica y ElectrónicaIdentificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de vozTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesishttp://purl.org/coar/resource_type/c_7a1fhttp://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/TPRedes neurales (Computadores)Aprendizaje automático (Inteligencia artificial)Reconocimiento automático de la vozInterfases con el usuario (Sistemas para computador)Ingeniería1234644894Publicationedd81d8c-e0b9-4c1f-bf04-eed0e12e755dvirtual::11256-1edd81d8c-e0b9-4c1f-bf04-eed0e12e755dvirtual::11256-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000025550virtual::11256-1ORIGINAL24070.pdfapplication/pdf951319https://repositorio.uniandes.edu.co/bitstreams/e4932038-fe43-4c87-aba2-f0becfdd2461/download6a120f005a94e50e1d26e7daea532a02MD51TEXT24070.pdf.txt24070.pdf.txtExtracted texttext/plain39672https://repositorio.uniandes.edu.co/bitstreams/0114069c-15f9-48e0-8583-613beefc3642/download63167fa502df088226c1b07ebcca6eefMD54THUMBNAIL24070.pdf.jpg24070.pdf.jpgIM Thumbnailimage/jpeg30965https://repositorio.uniandes.edu.co/bitstreams/ec5d9698-21cd-45be-9ba8-6009f67f14a5/downloada399c71c962c7751a94723fab61e98cdMD551992/50650oai:repositorio.uniandes.edu.co:1992/506502024-03-13 14:23:20.307https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdfopen.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co |
dc.title.none.fl_str_mv |
Identificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de voz |
title |
Identificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de voz |
spellingShingle |
Identificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de voz Redes neurales (Computadores) Aprendizaje automático (Inteligencia artificial) Reconocimiento automático de la voz Interfases con el usuario (Sistemas para computador) Ingeniería |
title_short |
Identificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de voz |
title_full |
Identificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de voz |
title_fullStr |
Identificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de voz |
title_full_unstemmed |
Identificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de voz |
title_sort |
Identificación de idioma y respuesta en tiempo real usando técnicas de Deep Learning con espectrogramas y reconocimiento de voz |
dc.creator.fl_str_mv |
Cruz Montealegre, Maria Camila |
dc.contributor.advisor.none.fl_str_mv |
Lozano Martínez, Fernando Enrique |
dc.contributor.author.none.fl_str_mv |
Cruz Montealegre, Maria Camila |
dc.contributor.jury.none.fl_str_mv |
Higuera Arias, Carolina Segura Quijano, Fredy Enrique |
dc.subject.armarc.none.fl_str_mv |
Redes neurales (Computadores) Aprendizaje automático (Inteligencia artificial) Reconocimiento automático de la voz Interfases con el usuario (Sistemas para computador) |
topic |
Redes neurales (Computadores) Aprendizaje automático (Inteligencia artificial) Reconocimiento automático de la voz Interfases con el usuario (Sistemas para computador) Ingeniería |
dc.subject.themes.none.fl_str_mv |
Ingeniería |
description |
En este proyecto de grado se aborda el problema de clasificación de lenguaje hablado usando técnicas de Deep Learning. Específicamente, se implementan algunos clasificadores tanto binarios como multi-clase utilizando distintas arquitecturas de redes neuronales para ser entrenados y finalmente tener modelos de clasificación para 7 idiomas distintos. Para esto, se realiza un preprocesamiento de los audios seguido de una generación de mel-espectrogramas para obtener las entradas de los modelos. Luego, se realiza la creación de la base de datos a partir de los mel espectrogramas y se procede a entrenar los modelos correspondientes. Por último, se evalúan cada uno de los clasificadores, se realizan comparaciones de desempeño entre ellos y se concluye que el mejor clasificador corresponde al modelo multiclase entrenado con la ResNet50 cuya Accuracy es de 96% y tiene un f1-score promedio de 0.95. |
publishDate |
2021 |
dc.date.accessioned.none.fl_str_mv |
2021-08-03T16:05:46Z |
dc.date.available.none.fl_str_mv |
2021-08-03T16:05:46Z |
dc.date.issued.none.fl_str_mv |
2021 |
dc.type.spa.fl_str_mv |
Trabajo de grado - Pregrado |
dc.type.coarversion.fl_str_mv |
http://purl.org/coar/version/c_970fb48d4fbd8a85 |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
dc.type.coar.spa.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/TP |
format |
http://purl.org/coar/resource_type/c_7a1f |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/1992/50650 |
dc.identifier.pdf.none.fl_str_mv |
24070.pdf |
dc.identifier.instname.spa.fl_str_mv |
instname:Universidad de los Andes |
dc.identifier.reponame.spa.fl_str_mv |
reponame:Repositorio Institucional Séneca |
dc.identifier.repourl.spa.fl_str_mv |
repourl:https://repositorio.uniandes.edu.co/ |
url |
http://hdl.handle.net/1992/50650 |
identifier_str_mv |
24070.pdf instname:Universidad de los Andes reponame:Repositorio Institucional Séneca repourl:https://repositorio.uniandes.edu.co/ |
dc.language.iso.none.fl_str_mv |
spa |
language |
spa |
dc.rights.uri.*.fl_str_mv |
https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.coar.spa.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
rights_invalid_str_mv |
https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.extent.none.fl_str_mv |
9 páginas |
dc.format.mimetype.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de los Andes |
dc.publisher.program.none.fl_str_mv |
Ingeniería Electrónica |
dc.publisher.faculty.none.fl_str_mv |
Facultad de Ingeniería |
dc.publisher.department.none.fl_str_mv |
Departamento de Ingeniería Eléctrica y Electrónica |
publisher.none.fl_str_mv |
Universidad de los Andes |
institution |
Universidad de los Andes |
bitstream.url.fl_str_mv |
https://repositorio.uniandes.edu.co/bitstreams/e4932038-fe43-4c87-aba2-f0becfdd2461/download https://repositorio.uniandes.edu.co/bitstreams/0114069c-15f9-48e0-8583-613beefc3642/download https://repositorio.uniandes.edu.co/bitstreams/ec5d9698-21cd-45be-9ba8-6009f67f14a5/download |
bitstream.checksum.fl_str_mv |
6a120f005a94e50e1d26e7daea532a02 63167fa502df088226c1b07ebcca6eef a399c71c962c7751a94723fab61e98cd |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio institucional Séneca |
repository.mail.fl_str_mv |
adminrepositorio@uniandes.edu.co |
_version_ |
1812133977202360320 |