Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista

This thesis shows the development of a method for the visual representation of the timbral and dynamic properties of an audio signal in an RGB matrix, for ear-to-vision sensory substitution in people with hearing disabilities. In the first part, were obtained audio descriptors and a comparison was m...

Full description

Autores:
García Gómez, Andrés
Tipo de recurso:
Fecha de publicación:
2021
Institución:
Universidad de San Buenaventura
Repositorio:
Repositorio USB
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.usb.edu.co:10819/8631
Acceso en línea:
http://hdl.handle.net/10819/8631
Palabra clave:
Descriptores de audio
Chroma Vector
MFCC
Matriz RGB
Sinestesia
Discapacidad auditiva
Representación visual
Sustitución sensorial
Matlab
Espectrograma
Audio descriptors
Chroma Vector
Synesthesia
Hearing Impairment
Visual representation
Sensory substitution
Matlab
Spectrogram
Audio
Señales
Rights
License
Atribución-NoComercial-SinDerivadas 2.5 Colombia
id SANBUENAV2_46cb5e338ad5df74d5a69b74b91e7fad
oai_identifier_str oai:bibliotecadigital.usb.edu.co:10819/8631
network_acronym_str SANBUENAV2
network_name_str Repositorio USB
repository_id_str
dc.title.spa.fl_str_mv Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista
title Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista
spellingShingle Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista
Descriptores de audio
Chroma Vector
MFCC
Matriz RGB
Sinestesia
Discapacidad auditiva
Representación visual
Sustitución sensorial
Matlab
Espectrograma
Audio descriptors
Chroma Vector
Synesthesia
Hearing Impairment
Visual representation
Sensory substitution
Matlab
Spectrogram
Audio
Señales
title_short Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista
title_full Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista
title_fullStr Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista
title_full_unstemmed Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista
title_sort Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista
dc.creator.fl_str_mv García Gómez, Andrés
dc.contributor.advisor.none.fl_str_mv Franco Bedoya, Ramiro Esteban
dc.contributor.author.none.fl_str_mv García Gómez, Andrés
dc.subject.spa.fl_str_mv Descriptores de audio
Chroma Vector
MFCC
Matriz RGB
Sinestesia
Discapacidad auditiva
Representación visual
Sustitución sensorial
Matlab
Espectrograma
Audio descriptors
Chroma Vector
Synesthesia
Hearing Impairment
Visual representation
Sensory substitution
Matlab
Spectrogram
topic Descriptores de audio
Chroma Vector
MFCC
Matriz RGB
Sinestesia
Discapacidad auditiva
Representación visual
Sustitución sensorial
Matlab
Espectrograma
Audio descriptors
Chroma Vector
Synesthesia
Hearing Impairment
Visual representation
Sensory substitution
Matlab
Spectrogram
Audio
Señales
dc.subject.lemb.spa.fl_str_mv Audio
Señales
description This thesis shows the development of a method for the visual representation of the timbral and dynamic properties of an audio signal in an RGB matrix, for ear-to-vision sensory substitution in people with hearing disabilities. In the first part, were obtained audio descriptors and a comparison was made between the different types, such as the MFCC, spectral descriptors such as the spectral centroid, spectral flatness, spectral slope among others, descriptors such as the "Chroma Vector" were also used. Which allows identifying musical notes. To obtain these descriptors, the audio characteristics extraction tools included in the Matlab 2020B Audio Toolbox and the Dan Ellis “Chroma Feature Analysis and Synthesis” library were used. Based on the "Chroma Vector" an experimental algorithm was developed, using type IIR filters and later improved with the Q transform. Based on this method, were achieved visual representations in an RGB matrix. These visual representations were inspired by the phenomenon of synesthesia, more precisely sound-color synesthesia (Chromesthesia) and the analogous characteristics between hearing and vision. Visual representations based on this algorithm were obtained, similar to a spectrogram in real time, using the chromatic scale and colors according to this. Such visualizations appear to be useful to observe the temporal evolution of harmony and notes in music and for identifying basic patterns in short voice signals (logatomes). Finally, a subjective visual comparison between similar voice and music signals visualizations was made. a comparison using the “VGGish” neural network was made too, for this using its original input (mel scale filters), and the constant Q spectrum that was obtained as an audio descriptor previously, in this case showing the original input a better performance, but qualitatively it seems that the method chosen in this work visually represents the music and voice signals better
publishDate 2021
dc.date.issued.none.fl_str_mv 2021
dc.date.submitted.none.fl_str_mv 2021-11-09
dc.date.accessioned.none.fl_str_mv 2022-01-10T21:36:11Z
dc.date.available.none.fl_str_mv 2022-01-10T21:36:11Z
dc.type.spa.fl_str_mv Trabajo de grado - Pregrado
dc.type.coar.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.spa.spa.fl_str_mv Trabajo de Grado
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.identifier.citation.spa.fl_str_mv A. García Gómez, “Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista”, Trabajo de grado Ingeniería de Sonido, Universidad de San Buenaventura, Facultad de Ingenierías, Medellín, 2021.
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/10819/8631
identifier_str_mv A. García Gómez, “Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista”, Trabajo de grado Ingeniería de Sonido, Universidad de San Buenaventura, Facultad de Ingenierías, Medellín, 2021.
url http://hdl.handle.net/10819/8631
dc.language.iso.spa.fl_str_mv spa
language spa
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.cc.spa.fl_str_mv Atribución-NoComercial-SinDerivadas 2.5 Colombia
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/co/
rights_invalid_str_mv Atribución-NoComercial-SinDerivadas 2.5 Colombia
http://creativecommons.org/licenses/by-nc-nd/2.5/co/
http://purl.org/coar/access_right/c_abf2
dc.format.spa.fl_str_mv pdf
dc.format.extent.spa.fl_str_mv 94 páginas
dc.format.medium.spa.fl_str_mv Recurso en linea
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.faculty.spa.fl_str_mv Ingenierias
dc.publisher.program.spa.fl_str_mv Ingeniería de Sonido
dc.publisher.sede.spa.fl_str_mv Medellín
institution Universidad de San Buenaventura
dc.source.instname.spa.fl_str_mv Universidad de San Buenaventura - Medellín
dc.source.other.spa.fl_str_mv Biblioteca USB (San Benito) TG-6156t
dc.source.reponame.spa.fl_str_mv Biblioteca Digital Universidad de San Buenaventura
bitstream.url.fl_str_mv https://bibliotecadigital.usb.edu.co/bitstreams/5c8485ab-9d7f-420c-be62-c283c2db810a/download
https://bibliotecadigital.usb.edu.co/bitstreams/9c89c95e-df0f-42ea-a8af-738cf70c3267/download
https://bibliotecadigital.usb.edu.co/bitstreams/c441dfa0-454d-4fea-91f0-5ae38d1159e4/download
https://bibliotecadigital.usb.edu.co/bitstreams/fd36750c-a8a1-4429-9936-7d1c5208a0e2/download
bitstream.checksum.fl_str_mv a8eaa7b978c7613061789dd25432601e
0c7b7184e7583ec671a5d9e43f0939c0
495de19b87aa6d8f988ef6c1b1ab46d6
6ca8724c32005c139438dee17545767d
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad de San Buenaventura Colombia
repository.mail.fl_str_mv bdigital@metabiblioteca.com
_version_ 1812932472893079552
spelling Comunidad Científica y AcadémicaFranco Bedoya, Ramiro Estebancec455f4-bf77-4ce6-9fb4-8a2ba17ad400-1García Gómez, Andrésc158cf8f-9b3b-48b3-81bd-d947e09e09ef-12022-01-10T21:36:11Z2022-01-10T21:36:11Z20212021-11-09This thesis shows the development of a method for the visual representation of the timbral and dynamic properties of an audio signal in an RGB matrix, for ear-to-vision sensory substitution in people with hearing disabilities. In the first part, were obtained audio descriptors and a comparison was made between the different types, such as the MFCC, spectral descriptors such as the spectral centroid, spectral flatness, spectral slope among others, descriptors such as the "Chroma Vector" were also used. Which allows identifying musical notes. To obtain these descriptors, the audio characteristics extraction tools included in the Matlab 2020B Audio Toolbox and the Dan Ellis “Chroma Feature Analysis and Synthesis” library were used. Based on the "Chroma Vector" an experimental algorithm was developed, using type IIR filters and later improved with the Q transform. Based on this method, were achieved visual representations in an RGB matrix. These visual representations were inspired by the phenomenon of synesthesia, more precisely sound-color synesthesia (Chromesthesia) and the analogous characteristics between hearing and vision. Visual representations based on this algorithm were obtained, similar to a spectrogram in real time, using the chromatic scale and colors according to this. Such visualizations appear to be useful to observe the temporal evolution of harmony and notes in music and for identifying basic patterns in short voice signals (logatomes). Finally, a subjective visual comparison between similar voice and music signals visualizations was made. a comparison using the “VGGish” neural network was made too, for this using its original input (mel scale filters), and the constant Q spectrum that was obtained as an audio descriptor previously, in this case showing the original input a better performance, but qualitatively it seems that the method chosen in this work visually represents the music and voice signals betterEsta tesis muestra el desarrollo de un método para la representación visual de las propiedades tímbricas y dinámicas de una señal de audio en una matriz RGB, para la sustitución sensorial oído a visión en personas con discapacidad auditiva. En una primera parte se obtuvieron descriptores de audio y se realizó una comparación entre los diferentes tipos, tales como los MFCC, descriptores espectrales como el centroide espectral, llanura espectral, pendiente espectral entre otros, también se usaron descriptores como el “Chroma Vector”, el cual permite identificar notas musicales. Para la obtención de estos descriptores se usaron las herramientas de extracción de características de audio incluidas en el Audio Toolbox de Matlab 2020B y la librería “Chroma Feature Analysis and Synthesis” de Dan Ellis. Se desarrolló un algoritmo experimental basado en el “Chroma Vector”, usando filtros tipo IIR y posteriormente mejorado con la transformada Q, basado en este método se lograron representaciones visuales en una matriz RGB. Estas representaciones visuales se inspiraron en el fenómeno de la sinestesia, más exactamente sinestesia sonido-color “Chromesthesia” y las características análogas entre el oído y la visión. Se obtuvieron representaciones visuales basadas en este algoritmo, similares a un espectrograma en tiempo real, usando escala cromática y colores de acuerdo a esta. Dichas visualizaciones parecen ser útiles para ver la evolución temporal de la armonía y notas en la música y la identificación de patrones básicos en señales de voz cortas (logatomos). Finalmente, se realizó una comparación subjetiva visual entre visualizaciones de señales similares de voz y música, también una comparación con la red neuronal “VGGish”, usando su entrada original (filtros en escala mel) y como entrada el espectro de Q constante obtenido como descriptor de audio anteriormente, mostrando la entrada original un mejor desempeño, pero cualitativamente pareciera que el método elegido en este trabajo representara visualmente mejor las señales de música y la vozpdf94 páginasRecurso en lineaapplication/pdfA. García Gómez, “Representación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vista”, Trabajo de grado Ingeniería de Sonido, Universidad de San Buenaventura, Facultad de Ingenierías, Medellín, 2021.http://hdl.handle.net/10819/8631spaIngenieriasIngeniería de SonidoMedellínAtribución-NoComercial-SinDerivadas 2.5 ColombiaPor medio de este formato manifiesto mi voluntad de AUTORIZAR a la Universidad de San Buenaventura, Sede Bogotá, Seccionales Medellín, Cali y Cartagena, la difusión en texto completo de manera gratuita y por tiempo indefinido en la Biblioteca Digital Universidad de San Buenaventura, el documento académico-investigativo objeto de la presente autorización, con fines estrictamente educativos, científicos y culturales, en los términos establecidos en la Ley 23 de 1982, Ley 44 de 1993, Decisión Andina 351 de 1993, Decreto 460 de 1995 y demás normas generales sobre derechos de autor. Como autor manifiesto que el presente documento académico-investigativo es original y se realiza sin violar o usurpar derechos de autor de terceros, por lo tanto, la obra es de mi exclusiva autora y poseo la titularidad sobre la misma. La Universidad de San Buenaventura no será responsable de ninguna utilización indebida del documento por parte de terceros y será exclusivamente mi responsabilidad atender personalmente cualquier reclamación que pueda presentarse a la Universidad. Autorizo a la Biblioteca Digital de la Universidad de San Buenaventura convertir el documento al formato que el repositorio lo requiera (impreso, digital, electrónico o cualquier otro conocido o por conocer) o con fines de preservación digital. Esta autorización no implica renuncia a la facultad que tengo de publicar posteriormente la obra, en forma total o parcial, por lo cual podrá, dando aviso por escrito con no menos de un mes de antelación, solicitar que el documento deje de estar disponible para el público en la Biblioteca Digital de la Universidad de San Buenaventura, así mismo, cuando se requiera por razones legales y/o reglas del editor de una revista.http://creativecommons.org/licenses/by-nc-nd/2.5/co/http://purl.org/coar/access_right/c_abf2Universidad de San Buenaventura - MedellínBiblioteca USB (San Benito) TG-6156tBiblioteca Digital Universidad de San BuenaventuraDescriptores de audioChroma VectorMFCCMatriz RGBSinestesiaDiscapacidad auditivaRepresentación visualSustitución sensorialMatlabEspectrogramaAudio descriptorsChroma VectorSynesthesiaHearing ImpairmentVisual representationSensory substitutionMatlabSpectrogramAudioSeñalesIngeniero de SonidoRepresentación de las propiedades tímbricas y dinámicas de una señal de audio a través de una matriz RGB para la sustitución sensorial del oído a la vistaTrabajo de grado - PregradoTrabajo de Gradoinfo:eu-repo/semantics/bachelorThesishttp://purl.org/coar/resource_type/c_7a1fPublicationORIGINALRepresentacion_Propiedades_Timbricas_Garcia_2021.pdfRepresentacion_Propiedades_Timbricas_Garcia_2021.pdfapplication/pdf5395977https://bibliotecadigital.usb.edu.co/bitstreams/5c8485ab-9d7f-420c-be62-c283c2db810a/downloada8eaa7b978c7613061789dd25432601eMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82071https://bibliotecadigital.usb.edu.co/bitstreams/9c89c95e-df0f-42ea-a8af-738cf70c3267/download0c7b7184e7583ec671a5d9e43f0939c0MD52TEXTRepresentacion_Propiedades_Timbricas_Garcia_2021.pdf.txtRepresentacion_Propiedades_Timbricas_Garcia_2021.pdf.txtExtracted texttext/plain150824https://bibliotecadigital.usb.edu.co/bitstreams/c441dfa0-454d-4fea-91f0-5ae38d1159e4/download495de19b87aa6d8f988ef6c1b1ab46d6MD53THUMBNAILRepresentacion_Propiedades_Timbricas_Garcia_2021.pdf.jpgRepresentacion_Propiedades_Timbricas_Garcia_2021.pdf.jpgGenerated Thumbnailimage/jpeg5921https://bibliotecadigital.usb.edu.co/bitstreams/fd36750c-a8a1-4429-9936-7d1c5208a0e2/download6ca8724c32005c139438dee17545767dMD5410819/8631oai:bibliotecadigital.usb.edu.co:10819/86312023-02-24 11:31:35.752http://creativecommons.org/licenses/by-nc-nd/2.5/co/https://bibliotecadigital.usb.edu.coRepositorio Institucional Universidad de San Buenaventura Colombiabdigital@metabiblioteca.comPGNlbnRlcj4KPGgzPkJJQkxJT1RFQ0EgRElHSVRBTCBVTklWRVJTSURBRCBERSBTQU4gQlVFTkFWRU5UVVJBIC0gQ09MT01CSUE8L2gzPgo8cD4KVMOpcm1pbm9zIGRlIGxhIGxpY2VuY2lhIGdlbmVyYWwgcGFyYSBwdWJsaWNhY2nDs24gZGUgb2JyYXMgZW4gZWwgcmVwb3NpdG9yaW8gaW5zdGl0dWNpb25hbDwvcD48L2NlbnRlcj4KPFAgQUxJR049Y2VudGVyPgpQb3IgbWVkaW8gZGUgZXN0ZSBmb3JtYXRvIG1hbmlmaWVzdG8gbWkgdm9sdW50YWQgZGUgQVVUT1JJWkFSIGEgbGEgVW5pdmVyc2lkYWQgZGUgU2FuIEJ1ZW5hdmVudHVyYSwgU2VkZSBCb2dvdMOhIHkgPEJSPlNlY2Npb25hbGVzIE1lZGVsbMOtbiwgQ2FsaSB5IENhcnRhZ2VuYSwgbGEgZGlmdXNpw7NuIGVuIHRleHRvIGNvbXBsZXRvIGRlIG1hbmVyYSBncmF0dWl0YSB5IHBvciB0aWVtcG8gaW5kZWZpbmlkbyBlbiBsYTxCUj4gQmlibGlvdGVjYSBEaWdpdGFsIFVuaXZlcnNpZGFkIGRlIFNhbiBCdWVuYXZlbnR1cmEsIGVsIGRvY3VtZW50byBhY2Fkw6ltaWNvIC0gaW52ZXN0aWdhdGl2byBvYmpldG8gZGUgbGEgcHJlc2VudGUgPEJSPmF1dG9yaXphY2nDs24sIGNvbiBmaW5lcyBlc3RyaWN0YW1lbnRlIGVkdWNhdGl2b3MsIGNpZW50w63CrWZpY29zIHkgY3VsdHVyYWxlcywgZW4gbG9zIHTDqXJtaW5vcyBlc3RhYmxlY2lkb3MgZW4gbGEgTGV5IDIzIGRlIDxCUj4gMTk4MiwgTGV5IDQ0IGRlIDE5OTMsIERlY2lzacOzbiBBbmRpbmEgMzUxIGRlIDE5OTMsIERlY3JldG8gNDYwIGRlIDE5OTUgeSBkZW3DoXMgbm9ybWFzIGdlbmVyYWxlcyBzb2JyZSBkZXJlY2hvczxCUj4gZGUgYXV0b3IuIDxCUj4gCiAKQ29tbyBhdXRvciBtYW5pZmllc3RvIHF1ZSBlbCBwcmVzZW50ZSBkb2N1bWVudG8gYWNhZMOpbWljbyAtIGludmVzdGlnYXRpdm8gZXMgb3JpZ2luYWwgeSBzZSByZWFsaXrDsyBzaW4gdmlvbGFyIG8gPEJSPiB1c3VycGFyIGRlcmVjaG9zIGRlIGF1dG9yIGRlIHRlcmNlcm9zLCBwb3IgbG8gdGFudG8sIGxhIG9icmEgZXMgZGUgbWkgZXhjbHVzaXZhIGF1dG9yw63CrWEgeSBwb3NlbyBsYSB0aXR1bGFyaWRhZCA8QlI+IHNvYnJlIGxhIG1pc21hLiBMYSBVbml2ZXJzaWRhZCBkZSBTYW4gQnVlbmF2ZW50dXJhIG5vIHNlcsOhIHJlc3BvbnNhYmxlIGRlIG5pbmd1bmEgdXRpbGl6YWNpw7NuIGluZGViaWRhIGRlbCBkb2N1bWVudG8gPEJSPnBvciBwYXJ0ZSBkZSB0ZXJjZXJvcyB5IHNlcsOhIGV4Y2x1c2l2YW1lbnRlIG1pIHJlc3BvbnNhYmlsaWRhZCBhdGVuZGVyIHBlcnNvbmFsbWVudGUgY3VhbHF1aWVyIHJlY2xhbWFjacOzbiBxdWUgcHVlZGE8QlI+IHByZXNlbnRhcnNlIGEgbGEgVW5pdmVyc2lkYWQuIDxCUj4KIApBdXRvcml6byBhIGxhIEJpYmxpb3RlY2EgRGlnaXRhbCBkZSBsYSBVbml2ZXJzaWRhZCBkZSBTYW4gQnVlbmF2ZW50dXJhIGNvbnZlcnRpciBlbCBkb2N1bWVudG8gYWwgZm9ybWF0byBxdWUgZWwgPEJSPnJlcG9zaXRvcmlvIGxvIHJlcXVpZXJhIChpbXByZXNvLCBkaWdpdGFsLCBlbGVjdHLDs25pY28gbyBjdWFscXVpZXIgb3RybyBjb25vY2lkbyBvIHBvciBjb25vY2VyKSBvIGNvbiBmaW5lcyBkZTxCUj4gcHJlc2VydmFjacOzbiBkaWdpdGFsLiA8QlI+CiAKRXN0YSBhdXRvcml6YWNpw7NuIG5vIGltcGxpY2EgcmVudW5jaWEgYSBsYSBmYWN1bHRhZCBxdWUgdGVuZ28gZGUgcHVibGljYXIgcG9zdGVyaW9ybWVudGUgbGEgb2JyYSwgZW4gZm9ybWEgdG90YWwgbyA8QlI+cGFyY2lhbCwgcG9yIGxvIGN1YWwgcG9kcsOpLCBkYW5kbyBhdmlzbyBwb3IgZXNjcml0byBjb24gbm8gbWVub3MgZGUgdW4gbWVzIGRlIGFudGVsYWNpw7NuLCBzb2xpY2l0YXIgcXVlIGVsIDxCUj5kb2N1bWVudG8gZGVqZSBkZSBlc3RhciBkaXNwb25pYmxlIHBhcmEgZWwgcMO6YmxpY28gZW4gbGEgQmlibGlvdGVjYSBEaWdpdGFsIGRlIGxhIFVuaXZlcnNpZGFkIGRlIFNhbiBCdWVuYXZlbnR1cmEsIDxCUj4gYXPDrcKtIG1pc21vLCBjdWFuZG8gc2UgcmVxdWllcmEgcG9yIHJhem9uZXMgbGVnYWxlcyB5L28gcmVnbGFzIGRlbCBlZGl0b3IgZGUgdW5hIHJldmlzdGEuIDxCUj48L1A+Cg==