Performance evaluation of multi-label classification models for the automated classification of anuran calls in audio recordings

Este proyecto de grado tiene como objetivo utilizar modelos de redes neuronales convolucionales (CNN) preentrenados para identificar tres especies diferentes de Anuros por sonido en una representación de tiempo-frecuencia. Las especies seleccionadas son: Boana albopunctata, Physalaemus cuvieri, y Bo...

Full description

Autores:
Hernández Mera, Michael
De Valdenebro Herrera, Juan Sebastián
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2023
Institución:
Pontificia Universidad Javeriana Cali
Repositorio:
Vitela
Idioma:
eng
OAI Identifier:
oai:vitela.javerianacali.edu.co:11522/2778
Acceso en línea:
https://vitela.javerianacali.edu.co/handle/11522/2778
Palabra clave:
Transfer learning
Multilabel
Machine learning
Spectrogram
Anuran
Rights
License
https://creativecommons.org/licenses/by-nc-nd/4.0/
Description
Summary:Este proyecto de grado tiene como objetivo utilizar modelos de redes neuronales convolucionales (CNN) preentrenados para identificar tres especies diferentes de Anuros por sonido en una representación de tiempo-frecuencia. Las especies seleccionadas son: Boana albopunctata, Physalaemus cuvieri, y Boana lundii. Además, se analizó el rendimiento de diversos modelos y técnicas de aumentación de datos, para lograr una correcta clasificación multi-etiqueta, y las mejores prácticas para el procesamiento de audio, clasificación y automatización para las señales de sonido de los anfibios y también se discuten algunas referencias a las limitaciones asociadas con el monitoreo acústico de los anfibios y otras especies. El diseño metodológico del proyecto se dividió en cuatro etapas: preprocesamiento, aumento de datos, entrenamiento del modelo y evaluación del rendimiento de los modelos entrenados. El núcleo del proyecto se desarrolló en Python, para la etapa de preprocesamiento de datos en este proyecto se diseñó un “pipeline” para procesar los datos crudos proporcionados por el Instituto Humboldt y consistió en recortar los archivos de audio, generar espectrogramas, y fusionarlos con las anotaciones para devolver un conjunto de datos bien estructurados para el entrenamiento, en la etapa de aumento de datos las técnicas utilizadas fueron técnicas de estiramiento de tiempo, enmascaramiento de tiempo y enmascaramiento de frecuencia, por último, la fase de evaluación del rendimiento se realizó extrayendo de los modelos entrenados ( MobileNet, DenseNet121, InceptionV3 y Resnet50) la métrica de desempeño F1 utilizando un 30% del conjunto de datos no aumentado aislado del proceso de entrenamiento y comparando el rendimiento de cada modelo. Se realizaron tres experimentos, variando los hiperparámetros y la arquitectura, y utilizando diferentes conjuntos de datos. Se seleccionaron los mejores modelos en función de su rendimiento. Los mejores modelos (MobileNet con 1 FC Layer, DenseNet con 1 FC Layer, InceptionV3 con 2 FC Layer) alcanzó un desempeño F1 medio del 81% para la clasificación multi-etiqueta de las tres diferentes especies mencionadas anteriormente.