Categorización de letras de canciones de un portal web usando agrupación

Algoritmos de clasificación y de agrupación han sido usados ampliamente en sistemas de recuperación de información musical (MIR) para organizar repositorios musicales en categorías o grupos relacionados, por ejemplo género, modo o tema, usando el sonido o sonido en combinación con la letra de la can...

Full description

Autores:
Parra Anzola, Fabio Leonardo
Tipo de recurso:
Fecha de publicación:
2013
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/52054
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/52054
http://bdigital.unal.edu.co/46305/
Palabra clave:
0 Generalidades / Computer science, information and general works
62 Ingeniería y operaciones afines / Engineering
78 Música / Music
Recuperación de Información Musical
Agrupación de Páginas Web
Agrupación
Aprendizaje no Supervisado
Selección de Características
Minería de Datos
Minería de Texto Análisis de Letras de Canciones
Reglas de Asociación
Music Information Retrieval
Clustering
Unsupervised Learning
Feature Selection
Data Mining
Text Mining
Lyrics Analysis
Association Rules
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
Description
Summary:Algoritmos de clasificación y de agrupación han sido usados ampliamente en sistemas de recuperación de información musical (MIR) para organizar repositorios musicales en categorías o grupos relacionados, por ejemplo género, modo o tema, usando el sonido o sonido en combinación con la letra de la canción. Sin embargo, la investigación relacionada con agrupación usando solamente la letra de la canción es poca. El objetivo principal de este trabajo es definir un modelo no supervisado de minería de datos para la agrupación de letras de canciones recopiladas en un portal web, usando solamente características de la letra de la canción, con el fin de ofrecer mejores opciones de búsqueda a los usuarios del portal. El modelo propuesto primero identifica el lenguaje de las letras de canciones usando Naive Bayes y n-grams (para el caso de este trabajo se identificaron 30.000 letras de canciones en Español y 30.000 en Ingles). Luego las letras son representadas en un modelo de espacio vectorial Bag OfWords (BOW), usando características de Part Of Speech (POS) y transformando los datos al formato TF-IDF. Posteriormente, se estima el numero apropiado de agrupaciones (K) y se usan algoritmos particionales y jerárquicos con el _n de obtener los grupos diferenciados de letras de canciones. Para evaluar los resultados de cada agrupación se usan medidas como el índice Davies Bouldin (DBI) y medidas internas y externas de similaridad de los grupos. Finalmente, los grupos se etiquetan usando palabras frecuentes y reglas de asociación identificadas en cada grupo. Los experimentos realizados muestran que la música puede ser organizada en grupos relacionados como género, modo, sentimientos y temas, la cual puede ser etiquetada con técnicas no supervisadas usando solamente la información de la letra de la canción.