Clasificador de escenas acústicas basado en redes neuronales artificiales y análisis de componentes principales

La clasificación acústica de escenas ha venido cobrando importancia en los últimos años. Las aplicaciones que tiene son interesantes y adicionalmente, representa un reto implementar una herramienta computacional que permita detectar adecuadamente sonidos complejos y diversos, como los presentados en...

Full description

Autores:
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2019
Institución:
Universidad Distrital Francisco José de Caldas
Repositorio:
RIUD: repositorio U. Distrital
Idioma:
spa
OAI Identifier:
oai:repository.udistrital.edu.co:11349/23160
Acceso en línea:
http://hdl.handle.net/11349/23160
Palabra clave:
Redes neuronales convolucionales
Clasificación de escenas
Redes Feed-Forward
Análisis de componentes principales
Segmentos
Ingeniería Electrónica - Tesis y disertaciones académicas
Redes neurales (Informática)
Redes neuronales convolucionales
Complejidad computacional
Convolutional neural networks
Scene classification
Feed-Forward networks
Principal component analysis
Segments
Rights
License
Atribución-NoComercial-SinDerivadas 4.0 Internacional
Description
Summary:La clasificación acústica de escenas ha venido cobrando importancia en los últimos años. Las aplicaciones que tiene son interesantes y adicionalmente, representa un reto implementar una herramienta computacional que permita detectar adecuadamente sonidos complejos y diversos, como los presentados en entornos reales. En este trabajo se implementan redes neuronales convolucionales y feed-forward, entrenadas con características individuales como Coeficientes Cepstrales de Frecuencia en escala Mel (MFCC), tonos gamma y Transformada Discreta de Fourier (DFT), extraídas a los sonidos en ventanas de 100 ms con solapamiento de 50%, para luego formar segmentos de 1 y 10 segundos. De igual forma las redes neuronales se entrenan con las combinaciones de características (DFT-Gamma, DFT-MFCC, Gamma-MFCC, DFT-Gamma-MFCC). Posteriormente se realiza reducción del número de coeficientes de entrada implementando PCA, verificando el impacto de esta reducción en el rendimiento y el tiempo de entrenamiento de diferentes arquitecturas de red neuronal. En ambos casos se utiliza validación cruzada con un 80% de los datos para entrenamiento y 20% para validación, para el desarrollo se utiliza la base de datos DCASE2018.