Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista
This thesis shows the development of a method for the visual representation of the timbral and dynamic properties of an audio signal in an RGB matrix, for ear-to-vision sensory substitution in people with hearing disabilities. In the first part, were obtained audio descriptors and a comparison was m...
- Autores:
-
García Gómez, Andrés
- Tipo de recurso:
- Fecha de publicación:
- 2021
- Institución:
- Universidad de San Buenaventura
- Repositorio:
- Repositorio USB
- Idioma:
- spa
- OAI Identifier:
- oai:bibliotecadigital.usb.edu.co:10819/8631
- Acceso en línea:
- http://hdl.handle.net/10819/8631
- Palabra clave:
- Descriptores de audio
Chroma Vector
MFCC
Matriz RGB
Sinestesia
Discapacidad auditiva
Representación visual
Sustitución sensorial
Matlab
Espectrograma
Audio descriptors
Chroma Vector
Synesthesia
Hearing Impairment
Visual representation
Sensory substitution
Matlab
Spectrogram
Audio
Señales
- Rights
- License
- Atribución-NoComercial-SinDerivadas 2.5 Colombia
id |
SANBUENAV2_46cb5e338ad5df74d5a69b74b91e7fad |
---|---|
oai_identifier_str |
oai:bibliotecadigital.usb.edu.co:10819/8631 |
network_acronym_str |
SANBUENAV2 |
network_name_str |
Repositorio USB |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista |
title |
Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista |
spellingShingle |
Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista Descriptores de audio Chroma Vector MFCC Matriz RGB Sinestesia Discapacidad auditiva Representación visual Sustitución sensorial Matlab Espectrograma Audio descriptors Chroma Vector Synesthesia Hearing Impairment Visual representation Sensory substitution Matlab Spectrogram Audio Señales |
title_short |
Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista |
title_full |
Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista |
title_fullStr |
Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista |
title_full_unstemmed |
Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista |
title_sort |
Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista |
dc.creator.fl_str_mv |
García Gómez, Andrés |
dc.contributor.advisor.none.fl_str_mv |
Franco Bedoya, Ramiro Esteban |
dc.contributor.author.none.fl_str_mv |
García Gómez, Andrés |
dc.subject.spa.fl_str_mv |
Descriptores de audio Chroma Vector MFCC Matriz RGB Sinestesia Discapacidad auditiva Representación visual Sustitución sensorial Matlab Espectrograma Audio descriptors Chroma Vector Synesthesia Hearing Impairment Visual representation Sensory substitution Matlab Spectrogram |
topic |
Descriptores de audio Chroma Vector MFCC Matriz RGB Sinestesia Discapacidad auditiva Representación visual Sustitución sensorial Matlab Espectrograma Audio descriptors Chroma Vector Synesthesia Hearing Impairment Visual representation Sensory substitution Matlab Spectrogram Audio Señales |
dc.subject.lemb.spa.fl_str_mv |
Audio Señales |
description |
This thesis shows the development of a method for the visual representation of the timbral and dynamic properties of an audio signal in an RGB matrix, for ear-to-vision sensory substitution in people with hearing disabilities. In the first part, were obtained audio descriptors and a comparison was made between the different types, such as the MFCC, spectral descriptors such as the spectral centroid, spectral flatness, spectral slope among others, descriptors such as the "Chroma Vector" were also used. Which allows identifying musical notes. To obtain these descriptors, the audio characteristics extraction tools included in the Matlab 2020B Audio Toolbox and the Dan Ellis “Chroma Feature Analysis and Synthesis” library were used. Based on the "Chroma Vector" an experimental algorithm was developed, using type IIR filters and later improved with the Q transform. Based on this method, were achieved visual representations in an RGB matrix. These visual representations were inspired by the phenomenon of synesthesia, more precisely sound-color synesthesia (Chromesthesia) and the analogous characteristics between hearing and vision. Visual representations based on this algorithm were obtained, similar to a spectrogram in real time, using the chromatic scale and colors according to this. Such visualizations appear to be useful to observe the temporal evolution of harmony and notes in music and for identifying basic patterns in short voice signals (logatomes). Finally, a subjective visual comparison between similar voice and music signals visualizations was made. a comparison using the “VGGish” neural network was made too, for this using its original input (mel scale filters), and the constant Q spectrum that was obtained as an audio descriptor previously, in this case showing the original input a better performance, but qualitatively it seems that the method chosen in this work visually represents the music and voice signals better |
publishDate |
2021 |
dc.date.issued.none.fl_str_mv |
2021 |
dc.date.submitted.none.fl_str_mv |
2021-11-09 |
dc.date.accessioned.none.fl_str_mv |
2022-01-10T21:36:11Z |
dc.date.available.none.fl_str_mv |
2022-01-10T21:36:11Z |
dc.type.spa.fl_str_mv |
Trabajo de grado - Pregrado |
dc.type.coar.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
dc.type.spa.spa.fl_str_mv |
Trabajo de Grado |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
dc.identifier.citation.spa.fl_str_mv |
A. García Gómez, “Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista”, Trabajo de grado Ingeniería de Sonido, Universidad de San Buenaventura, Facultad de Ingenierías, Medellín, 2021. |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/10819/8631 |
identifier_str_mv |
A. García Gómez, “Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista”, Trabajo de grado Ingeniería de Sonido, Universidad de San Buenaventura, Facultad de Ingenierías, Medellín, 2021. |
url |
http://hdl.handle.net/10819/8631 |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.cc.spa.fl_str_mv |
Atribución-NoComercial-SinDerivadas 2.5 Colombia |
dc.rights.uri.spa.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/co/ |
rights_invalid_str_mv |
Atribución-NoComercial-SinDerivadas 2.5 Colombia http://creativecommons.org/licenses/by-nc-nd/2.5/co/ http://purl.org/coar/access_right/c_abf2 |
dc.format.spa.fl_str_mv |
pdf |
dc.format.extent.spa.fl_str_mv |
94 páginas |
dc.format.medium.spa.fl_str_mv |
Recurso en linea |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
dc.publisher.faculty.spa.fl_str_mv |
Ingenierias |
dc.publisher.program.spa.fl_str_mv |
Ingeniería de Sonido |
dc.publisher.sede.spa.fl_str_mv |
Medellín |
institution |
Universidad de San Buenaventura |
dc.source.instname.spa.fl_str_mv |
Universidad de San Buenaventura - Medellín |
dc.source.other.spa.fl_str_mv |
Biblioteca USB (San Benito) TG-6156t |
dc.source.reponame.spa.fl_str_mv |
Biblioteca Digital Universidad de San Buenaventura |
bitstream.url.fl_str_mv |
https://bibliotecadigital.usb.edu.co/bitstreams/5c8485ab-9d7f-420c-be62-c283c2db810a/download https://bibliotecadigital.usb.edu.co/bitstreams/9c89c95e-df0f-42ea-a8af-738cf70c3267/download https://bibliotecadigital.usb.edu.co/bitstreams/c441dfa0-454d-4fea-91f0-5ae38d1159e4/download https://bibliotecadigital.usb.edu.co/bitstreams/fd36750c-a8a1-4429-9936-7d1c5208a0e2/download |
bitstream.checksum.fl_str_mv |
a8eaa7b978c7613061789dd25432601e 0c7b7184e7583ec671a5d9e43f0939c0 495de19b87aa6d8f988ef6c1b1ab46d6 6ca8724c32005c139438dee17545767d |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional Universidad de San Buenaventura Colombia |
repository.mail.fl_str_mv |
bdigital@metabiblioteca.com |
_version_ |
1812932472893079552 |
spelling |
Comunidad Científica y AcadémicaFranco Bedoya, Ramiro Estebancec455f4-bf77-4ce6-9fb4-8a2ba17ad400-1García Gómez, Andrésc158cf8f-9b3b-48b3-81bd-d947e09e09ef-12022-01-10T21:36:11Z2022-01-10T21:36:11Z20212021-11-09This thesis shows the development of a method for the visual representation of the timbral and dynamic properties of an audio signal in an RGB matrix, for ear-to-vision sensory substitution in people with hearing disabilities. In the first part, were obtained audio descriptors and a comparison was made between the different types, such as the MFCC, spectral descriptors such as the spectral centroid, spectral flatness, spectral slope among others, descriptors such as the "Chroma Vector" were also used. Which allows identifying musical notes. To obtain these descriptors, the audio characteristics extraction tools included in the Matlab 2020B Audio Toolbox and the Dan Ellis “Chroma Feature Analysis and Synthesis” library were used. Based on the "Chroma Vector" an experimental algorithm was developed, using type IIR filters and later improved with the Q transform. Based on this method, were achieved visual representations in an RGB matrix. These visual representations were inspired by the phenomenon of synesthesia, more precisely sound-color synesthesia (Chromesthesia) and the analogous characteristics between hearing and vision. Visual representations based on this algorithm were obtained, similar to a spectrogram in real time, using the chromatic scale and colors according to this. Such visualizations appear to be useful to observe the temporal evolution of harmony and notes in music and for identifying basic patterns in short voice signals (logatomes). Finally, a subjective visual comparison between similar voice and music signals visualizations was made. a comparison using the “VGGish” neural network was made too, for this using its original input (mel scale filters), and the constant Q spectrum that was obtained as an audio descriptor previously, in this case showing the original input a better performance, but qualitatively it seems that the method chosen in this work visually represents the music and voice signals betterEsta tesis muestra el desarrollo de un método para la representación visual de las propiedades tímbricas y dinámicas de una señal de audio en una matriz RGB, para la sustitución sensorial oído a visión en personas con discapacidad auditiva. En una primera parte se obtuvieron descriptores de audio y se realizó una comparación entre los diferentes tipos, tales como los MFCC, descriptores espectrales como el centroide espectral, llanura espectral, pendiente espectral entre otros, también se usaron descriptores como el “Chroma Vector”, el cual permite identificar notas musicales. Para la obtención de estos descriptores se usaron las herramientas de extracción de características de audio incluidas en el Audio Toolbox de Matlab 2020B y la librería “Chroma Feature Analysis and Synthesis” de Dan Ellis. Se desarrolló un algoritmo experimental basado en el “Chroma Vector”, usando filtros tipo IIR y posteriormente mejorado con la transformada Q, basado en este método se lograron representaciones visuales en una matriz RGB. Estas representaciones visuales se inspiraron en el fenómeno de la sinestesia, más exactamente sinestesia sonido-color “Chromesthesia” y las características análogas entre el oído y la visión. Se obtuvieron representaciones visuales basadas en este algoritmo, similares a un espectrograma en tiempo real, usando escala cromática y colores de acuerdo a esta. Dichas visualizaciones parecen ser útiles para ver la evolución temporal de la armonía y notas en la música y la identificación de patrones básicos en señales de voz cortas (logatomos). Finalmente, se realizó una comparación subjetiva visual entre visualizaciones de señales similares de voz y música, también una comparación con la red neuronal “VGGish”, usando su entrada original (filtros en escala mel) y como entrada el espectro de Q constante obtenido como descriptor de audio anteriormente, mostrando la entrada original un mejor desempeño, pero cualitativamente pareciera que el método elegido en este trabajo representara visualmente mejor las señales de música y la vozpdf94 páginasRecurso en lineaapplication/pdfA. García Gómez, “Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista”, Trabajo de grado Ingeniería de Sonido, Universidad de San Buenaventura, Facultad de Ingenierías, Medellín, 2021.http://hdl.handle.net/10819/8631spaIngenieriasIngeniería de SonidoMedellínAtribución-NoComercial-SinDerivadas 2.5 ColombiaPor medio de este formato manifiesto mi voluntad de AUTORIZAR a la Universidad de San Buenaventura, Sede Bogotá, Seccionales Medellín, Cali y Cartagena, la difusión en texto completo de manera gratuita y por tiempo indefinido en la Biblioteca Digital Universidad de San Buenaventura, el documento académico-investigativo objeto de la presente autorización, con fines estrictamente educativos, científicos y culturales, en los términos establecidos en la Ley 23 de 1982, Ley 44 de 1993, Decisión Andina 351 de 1993, Decreto 460 de 1995 y demás normas generales sobre derechos de autor. Como autor manifiesto que el presente documento académico-investigativo es original y se realiza sin violar o usurpar derechos de autor de terceros, por lo tanto, la obra es de mi exclusiva autora y poseo la titularidad sobre la misma. La Universidad de San Buenaventura no será responsable de ninguna utilización indebida del documento por parte de terceros y será exclusivamente mi responsabilidad atender personalmente cualquier reclamación que pueda presentarse a la Universidad. Autorizo a la Biblioteca Digital de la Universidad de San Buenaventura convertir el documento al formato que el repositorio lo requiera (impreso, digital, electrónico o cualquier otro conocido o por conocer) o con fines de preservación digital. Esta autorización no implica renuncia a la facultad que tengo de publicar posteriormente la obra, en forma total o parcial, por lo cual podrá, dando aviso por escrito con no menos de un mes de antelación, solicitar que el documento deje de estar disponible para el público en la Biblioteca Digital de la Universidad de San Buenaventura, así mismo, cuando se requiera por razones legales y/o reglas del editor de una revista.http://creativecommons.org/licenses/by-nc-nd/2.5/co/http://purl.org/coar/access_right/c_abf2Universidad de San Buenaventura - MedellínBiblioteca USB (San Benito) TG-6156tBiblioteca Digital Universidad de San BuenaventuraDescriptores de audioChroma VectorMFCCMatriz RGBSinestesiaDiscapacidad auditivaRepresentación visualSustitución sensorialMatlabEspectrogramaAudio descriptorsChroma VectorSynesthesiaHearing ImpairmentVisual representationSensory substitutionMatlabSpectrogramAudioSeñalesIngeniero de SonidoRepresentación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vistaTrabajo de grado - PregradoTrabajo de Gradoinfo:eu-repo/semantics/bachelorThesishttp://purl.org/coar/resource_type/c_7a1fPublicationORIGINALRepresentacion_Propiedades_Timbricas_Garcia_2021.pdfRepresentacion_Propiedades_Timbricas_Garcia_2021.pdfapplication/pdf5395977https://bibliotecadigital.usb.edu.co/bitstreams/5c8485ab-9d7f-420c-be62-c283c2db810a/downloada8eaa7b978c7613061789dd25432601eMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82071https://bibliotecadigital.usb.edu.co/bitstreams/9c89c95e-df0f-42ea-a8af-738cf70c3267/download0c7b7184e7583ec671a5d9e43f0939c0MD52TEXTRepresentacion_Propiedades_Timbricas_Garcia_2021.pdf.txtRepresentacion_Propiedades_Timbricas_Garcia_2021.pdf.txtExtracted texttext/plain150824https://bibliotecadigital.usb.edu.co/bitstreams/c441dfa0-454d-4fea-91f0-5ae38d1159e4/download495de19b87aa6d8f988ef6c1b1ab46d6MD53THUMBNAILRepresentacion_Propiedades_Timbricas_Garcia_2021.pdf.jpgRepresentacion_Propiedades_Timbricas_Garcia_2021.pdf.jpgGenerated Thumbnailimage/jpeg5921https://bibliotecadigital.usb.edu.co/bitstreams/fd36750c-a8a1-4429-9936-7d1c5208a0e2/download6ca8724c32005c139438dee17545767dMD5410819/8631oai:bibliotecadigital.usb.edu.co:10819/86312023-02-24 11:31:35.752http://creativecommons.org/licenses/by-nc-nd/2.5/co/https://bibliotecadigital.usb.edu.coRepositorio Institucional Universidad de San Buenaventura Colombiabdigital@metabiblioteca.comPGNlbnRlcj4KPGgzPkJJQkxJT1RFQ0EgRElHSVRBTCBVTklWRVJTSURBRCBERSBTQU4gQlVFTkFWRU5UVVJBIC0gQ09MT01CSUE8L2gzPgo8cD4KVMOpcm1pbm9zIGRlIGxhIGxpY2VuY2lhIGdlbmVyYWwgcGFyYSBwdWJsaWNhY2nDs24gZGUgb2JyYXMgZW4gZWwgcmVwb3NpdG9yaW8gaW5zdGl0dWNpb25hbDwvcD48L2NlbnRlcj4KPFAgQUxJR049Y2VudGVyPgpQb3IgbWVkaW8gZGUgZXN0ZSBmb3JtYXRvIG1hbmlmaWVzdG8gbWkgdm9sdW50YWQgZGUgQVVUT1JJWkFSIGEgbGEgVW5pdmVyc2lkYWQgZGUgU2FuIEJ1ZW5hdmVudHVyYSwgU2VkZSBCb2dvdMOhIHkgPEJSPlNlY2Npb25hbGVzIE1lZGVsbMOtbiwgQ2FsaSB5IENhcnRhZ2VuYSwgbGEgZGlmdXNpw7NuIGVuIHRleHRvIGNvbXBsZXRvIGRlIG1hbmVyYSBncmF0dWl0YSB5IHBvciB0aWVtcG8gaW5kZWZpbmlkbyBlbiBsYTxCUj4gQmlibGlvdGVjYSBEaWdpdGFsIFVuaXZlcnNpZGFkIGRlIFNhbiBCdWVuYXZlbnR1cmEsIGVsIGRvY3VtZW50byBhY2Fkw6ltaWNvIC0gaW52ZXN0aWdhdGl2byBvYmpldG8gZGUgbGEgcHJlc2VudGUgPEJSPmF1dG9yaXphY2nDs24sIGNvbiBmaW5lcyBlc3RyaWN0YW1lbnRlIGVkdWNhdGl2b3MsIGNpZW50w63CrWZpY29zIHkgY3VsdHVyYWxlcywgZW4gbG9zIHTDqXJtaW5vcyBlc3RhYmxlY2lkb3MgZW4gbGEgTGV5IDIzIGRlIDxCUj4gMTk4MiwgTGV5IDQ0IGRlIDE5OTMsIERlY2lzacOzbiBBbmRpbmEgMzUxIGRlIDE5OTMsIERlY3JldG8gNDYwIGRlIDE5OTUgeSBkZW3DoXMgbm9ybWFzIGdlbmVyYWxlcyBzb2JyZSBkZXJlY2hvczxCUj4gZGUgYXV0b3IuIDxCUj4gCiAKQ29tbyBhdXRvciBtYW5pZmllc3RvIHF1ZSBlbCBwcmVzZW50ZSBkb2N1bWVudG8gYWNhZMOpbWljbyAtIGludmVzdGlnYXRpdm8gZXMgb3JpZ2luYWwgeSBzZSByZWFsaXrDsyBzaW4gdmlvbGFyIG8gPEJSPiB1c3VycGFyIGRlcmVjaG9zIGRlIGF1dG9yIGRlIHRlcmNlcm9zLCBwb3IgbG8gdGFudG8sIGxhIG9icmEgZXMgZGUgbWkgZXhjbHVzaXZhIGF1dG9yw63CrWEgeSBwb3NlbyBsYSB0aXR1bGFyaWRhZCA8QlI+IHNvYnJlIGxhIG1pc21hLiBMYSBVbml2ZXJzaWRhZCBkZSBTYW4gQnVlbmF2ZW50dXJhIG5vIHNlcsOhIHJlc3BvbnNhYmxlIGRlIG5pbmd1bmEgdXRpbGl6YWNpw7NuIGluZGViaWRhIGRlbCBkb2N1bWVudG8gPEJSPnBvciBwYXJ0ZSBkZSB0ZXJjZXJvcyB5IHNlcsOhIGV4Y2x1c2l2YW1lbnRlIG1pIHJlc3BvbnNhYmlsaWRhZCBhdGVuZGVyIHBlcnNvbmFsbWVudGUgY3VhbHF1aWVyIHJlY2xhbWFjacOzbiBxdWUgcHVlZGE8QlI+IHByZXNlbnRhcnNlIGEgbGEgVW5pdmVyc2lkYWQuIDxCUj4KIApBdXRvcml6byBhIGxhIEJpYmxpb3RlY2EgRGlnaXRhbCBkZSBsYSBVbml2ZXJzaWRhZCBkZSBTYW4gQnVlbmF2ZW50dXJhIGNvbnZlcnRpciBlbCBkb2N1bWVudG8gYWwgZm9ybWF0byBxdWUgZWwgPEJSPnJlcG9zaXRvcmlvIGxvIHJlcXVpZXJhIChpbXByZXNvLCBkaWdpdGFsLCBlbGVjdHLDs25pY28gbyBjdWFscXVpZXIgb3RybyBjb25vY2lkbyBvIHBvciBjb25vY2VyKSBvIGNvbiBmaW5lcyBkZTxCUj4gcHJlc2VydmFjacOzbiBkaWdpdGFsLiA8QlI+CiAKRXN0YSBhdXRvcml6YWNpw7NuIG5vIGltcGxpY2EgcmVudW5jaWEgYSBsYSBmYWN1bHRhZCBxdWUgdGVuZ28gZGUgcHVibGljYXIgcG9zdGVyaW9ybWVudGUgbGEgb2JyYSwgZW4gZm9ybWEgdG90YWwgbyA8QlI+cGFyY2lhbCwgcG9yIGxvIGN1YWwgcG9kcsOpLCBkYW5kbyBhdmlzbyBwb3IgZXNjcml0byBjb24gbm8gbWVub3MgZGUgdW4gbWVzIGRlIGFudGVsYWNpw7NuLCBzb2xpY2l0YXIgcXVlIGVsIDxCUj5kb2N1bWVudG8gZGVqZSBkZSBlc3RhciBkaXNwb25pYmxlIHBhcmEgZWwgcMO6YmxpY28gZW4gbGEgQmlibGlvdGVjYSBEaWdpdGFsIGRlIGxhIFVuaXZlcnNpZGFkIGRlIFNhbiBCdWVuYXZlbnR1cmEsIDxCUj4gYXPDrcKtIG1pc21vLCBjdWFuZG8gc2UgcmVxdWllcmEgcG9yIHJhem9uZXMgbGVnYWxlcyB5L28gcmVnbGFzIGRlbCBlZGl0b3IgZGUgdW5hIHJldmlzdGEuIDxCUj48L1A+Cg== |