Detección de eventos sonoros en señales de música usando procesos Gaussianos

En este artículo se propone una metodología para detectar eventos sonoros en señales de música usando procesos Gaussianos. En el algoritmo presentado, las señales de audio de entrada son transformadas a un espacio tiempo-frecuencia utilizando la Transformada de Tiempo Corto de Fourier para obtener e...

Full description

Autores:
Alvarado-Durán, Pablo A.
Álvarez-López, Mauricio A.
Orozco-Gutiérrez, Álvaro A.
Tipo de recurso:
Article of journal
Fecha de publicación:
2011
Institución:
Instituto Tecnológico Metropolitano
Repositorio:
Repositorio ITM
Idioma:
spa
OAI Identifier:
oai:repositorio.itm.edu.co:20.500.12622/918
Acceso en línea:
https://revistas.itm.edu.co/index.php/tecnologicas/article/view/108
http://hdl.handle.net/20.500.12622/918
Palabra clave:
Clasificación con procesos Gaussianos
aprendizaje de máquina supervisado
espectrograma
detección de eventos
señales de música.
Gaussian processes classification
supervised machine learning
spectrogram
event detection
music signals.
Rights
License
Copyright (c) 2017 Tecno Lógicas
Description
Summary:En este artículo se propone una metodología para detectar eventos sonoros en señales de música usando procesos Gaussianos. En el algoritmo presentado, las señales de audio de entrada son transformadas a un espacio tiempo-frecuencia utilizando la Transformada de Tiempo Corto de Fourier para obtener el espectrograma, cuya dimensión es posteriormente reducida pasando de la frecuencia en escala lineal en Hertz a la escala logarítmica en Mel por medio de un banco de filtros triangulares. Finalmente, se clasifica entre “evento” y “no evento” cada uno de los espectros de tiempo corto contenidos en el espectrograma en escala Mel por medio de un clasificador binario basado en procesos Gaussianos. Como parte del proceso de evaluación, se compara el desempeño de la metodología propuesta con el desempeño de algunas técnicas ampliamente utilizadas para detectar eventos en este tipo de señales. Para tal fin, se implementa en MATLAB® cada una de estas técnicas y se ponen a prueba utilizando dos bases de datos compuestas por segmentos de audio de diferente complejidad; definida por el tipo y cantidad de instrumentos tocados al mismo tiempo. Los resultados indican que la metodología propuesta supera el desempeño de las técnicas hasta ahora planteadas, presentando un mejoramiento en la medida F de 1,66 % para la base de datos uno y de 0,45 % para la base de datos dos.