Categorización de letras de canciones de un portal web usando agrupación

Algoritmos de clasificación y de agrupación han sido usados ampliamente en sistemas de recuperación de información musical (MIR) para organizar repositorios musicales en categorías o grupos relacionados, por ejemplo género, modo o tema, usando el sonido o sonido en combinación con la letra de la can...

Full description

Autores:
Parra Anzola, Fabio Leonardo
Tipo de recurso:
Fecha de publicación:
2013
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/52054
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/52054
http://bdigital.unal.edu.co/46305/
Palabra clave:
0 Generalidades / Computer science, information and general works
62 Ingeniería y operaciones afines / Engineering
78 Música / Music
Recuperación de Información Musical
Agrupación de Páginas Web
Agrupación
Aprendizaje no Supervisado
Selección de Características
Minería de Datos
Minería de Texto Análisis de Letras de Canciones
Reglas de Asociación
Music Information Retrieval
Clustering
Unsupervised Learning
Feature Selection
Data Mining
Text Mining
Lyrics Analysis
Association Rules
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
id UNACIONAL2_baaaa16b5ccf08650adefe15bda21a61
oai_identifier_str oai:repositorio.unal.edu.co:unal/52054
network_acronym_str UNACIONAL2
network_name_str Universidad Nacional de Colombia
repository_id_str
dc.title.spa.fl_str_mv Categorización de letras de canciones de un portal web usando agrupación
title Categorización de letras de canciones de un portal web usando agrupación
spellingShingle Categorización de letras de canciones de un portal web usando agrupación
0 Generalidades / Computer science, information and general works
62 Ingeniería y operaciones afines / Engineering
78 Música / Music
Recuperación de Información Musical
Agrupación de Páginas Web
Agrupación
Aprendizaje no Supervisado
Selección de Características
Minería de Datos
Minería de Texto Análisis de Letras de Canciones
Reglas de Asociación
Music Information Retrieval
Clustering
Unsupervised Learning
Feature Selection
Data Mining
Text Mining
Lyrics Analysis
Association Rules
title_short Categorización de letras de canciones de un portal web usando agrupación
title_full Categorización de letras de canciones de un portal web usando agrupación
title_fullStr Categorización de letras de canciones de un portal web usando agrupación
title_full_unstemmed Categorización de letras de canciones de un portal web usando agrupación
title_sort Categorización de letras de canciones de un portal web usando agrupación
dc.creator.fl_str_mv Parra Anzola, Fabio Leonardo
dc.contributor.author.spa.fl_str_mv Parra Anzola, Fabio Leonardo
dc.contributor.spa.fl_str_mv León Guzman, Elizabeth
dc.subject.ddc.spa.fl_str_mv 0 Generalidades / Computer science, information and general works
62 Ingeniería y operaciones afines / Engineering
78 Música / Music
topic 0 Generalidades / Computer science, information and general works
62 Ingeniería y operaciones afines / Engineering
78 Música / Music
Recuperación de Información Musical
Agrupación de Páginas Web
Agrupación
Aprendizaje no Supervisado
Selección de Características
Minería de Datos
Minería de Texto Análisis de Letras de Canciones
Reglas de Asociación
Music Information Retrieval
Clustering
Unsupervised Learning
Feature Selection
Data Mining
Text Mining
Lyrics Analysis
Association Rules
dc.subject.proposal.spa.fl_str_mv Recuperación de Información Musical
Agrupación de Páginas Web
Agrupación
Aprendizaje no Supervisado
Selección de Características
Minería de Datos
Minería de Texto Análisis de Letras de Canciones
Reglas de Asociación
Music Information Retrieval
Clustering
Unsupervised Learning
Feature Selection
Data Mining
Text Mining
Lyrics Analysis
Association Rules
description Algoritmos de clasificación y de agrupación han sido usados ampliamente en sistemas de recuperación de información musical (MIR) para organizar repositorios musicales en categorías o grupos relacionados, por ejemplo género, modo o tema, usando el sonido o sonido en combinación con la letra de la canción. Sin embargo, la investigación relacionada con agrupación usando solamente la letra de la canción es poca. El objetivo principal de este trabajo es definir un modelo no supervisado de minería de datos para la agrupación de letras de canciones recopiladas en un portal web, usando solamente características de la letra de la canción, con el fin de ofrecer mejores opciones de búsqueda a los usuarios del portal. El modelo propuesto primero identifica el lenguaje de las letras de canciones usando Naive Bayes y n-grams (para el caso de este trabajo se identificaron 30.000 letras de canciones en Español y 30.000 en Ingles). Luego las letras son representadas en un modelo de espacio vectorial Bag OfWords (BOW), usando características de Part Of Speech (POS) y transformando los datos al formato TF-IDF. Posteriormente, se estima el numero apropiado de agrupaciones (K) y se usan algoritmos particionales y jerárquicos con el _n de obtener los grupos diferenciados de letras de canciones. Para evaluar los resultados de cada agrupación se usan medidas como el índice Davies Bouldin (DBI) y medidas internas y externas de similaridad de los grupos. Finalmente, los grupos se etiquetan usando palabras frecuentes y reglas de asociación identificadas en cada grupo. Los experimentos realizados muestran que la música puede ser organizada en grupos relacionados como género, modo, sentimientos y temas, la cual puede ser etiquetada con técnicas no supervisadas usando solamente la información de la letra de la canción.
publishDate 2013
dc.date.issued.spa.fl_str_mv 2013
dc.date.accessioned.spa.fl_str_mv 2019-06-29T13:26:10Z
dc.date.available.spa.fl_str_mv 2019-06-29T13:26:10Z
dc.type.spa.fl_str_mv Trabajo de grado - Maestría
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TM
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv https://repositorio.unal.edu.co/handle/unal/52054
dc.identifier.eprints.spa.fl_str_mv http://bdigital.unal.edu.co/46305/
url https://repositorio.unal.edu.co/handle/unal/52054
http://bdigital.unal.edu.co/46305/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.ispartof.spa.fl_str_mv Universidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial
Departamento de Ingeniería de Sistemas e Industrial
dc.relation.references.spa.fl_str_mv Parra Anzola, Fabio Leonardo (2013) Categorización de letras de canciones de un portal web usando agrupación. Maestría thesis, Universidad Nacional de Colombia.
dc.rights.spa.fl_str_mv Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial 4.0 Internacional
Derechos reservados - Universidad Nacional de Colombia
http://creativecommons.org/licenses/by-nc/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
institution Universidad Nacional de Colombia
bitstream.url.fl_str_mv https://repositorio.unal.edu.co/bitstream/unal/52054/1/02822295.2013.pdf
https://repositorio.unal.edu.co/bitstream/unal/52054/2/02822295.2013.pdf.jpg
bitstream.checksum.fl_str_mv a29bda3b8292fabea02ccda37b84a887
bbdc74393b44ccd463125921f0dab850
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv repositorio_nal@unal.edu.co
_version_ 1814089365037514752
spelling Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2León Guzman, ElizabethParra Anzola, Fabio Leonardo789855ef-0011-46a8-a759-98a3853c43153002019-06-29T13:26:10Z2019-06-29T13:26:10Z2013https://repositorio.unal.edu.co/handle/unal/52054http://bdigital.unal.edu.co/46305/Algoritmos de clasificación y de agrupación han sido usados ampliamente en sistemas de recuperación de información musical (MIR) para organizar repositorios musicales en categorías o grupos relacionados, por ejemplo género, modo o tema, usando el sonido o sonido en combinación con la letra de la canción. Sin embargo, la investigación relacionada con agrupación usando solamente la letra de la canción es poca. El objetivo principal de este trabajo es definir un modelo no supervisado de minería de datos para la agrupación de letras de canciones recopiladas en un portal web, usando solamente características de la letra de la canción, con el fin de ofrecer mejores opciones de búsqueda a los usuarios del portal. El modelo propuesto primero identifica el lenguaje de las letras de canciones usando Naive Bayes y n-grams (para el caso de este trabajo se identificaron 30.000 letras de canciones en Español y 30.000 en Ingles). Luego las letras son representadas en un modelo de espacio vectorial Bag OfWords (BOW), usando características de Part Of Speech (POS) y transformando los datos al formato TF-IDF. Posteriormente, se estima el numero apropiado de agrupaciones (K) y se usan algoritmos particionales y jerárquicos con el _n de obtener los grupos diferenciados de letras de canciones. Para evaluar los resultados de cada agrupación se usan medidas como el índice Davies Bouldin (DBI) y medidas internas y externas de similaridad de los grupos. Finalmente, los grupos se etiquetan usando palabras frecuentes y reglas de asociación identificadas en cada grupo. Los experimentos realizados muestran que la música puede ser organizada en grupos relacionados como género, modo, sentimientos y temas, la cual puede ser etiquetada con técnicas no supervisadas usando solamente la información de la letra de la canción.Abstract. Classification and clustering algorithms have been applied widely in Music Information Retrieval (MIR) to organize music repositories in categories or clusters, like genre, mood or topic, using sound or sound with lyrics. However, clustering related research using lyrics information only is not much. The main goal of this work is to define an unsupervised text mining model for grouping lyrics compiled in a website, using lyrics features only, in order to offer better search options to the website users. The proposal model first performs a language identification for lyrics using Nafive Bayes and n-grams (for this work 30.000 lyrics in Spanish and 30.000 in English were identifed). Next lyrics are represented in a vector space model Bag Of Words (BOW), using Part Of Speech (POS) features and transforming data to TF-IDF format. Then, the appropriate number of clusters (K) is estimated and partitional and hierarchical methods are used to perform clustering. For evaluating the clustering results, some measures are used such as Davies Bouldin Index (DBI), intra similarity and inter similarity measures. At last, the final clusters are tagged using top words and association rules per group. Experiments show that music could be organized in related groups as genre, mood, sentiment and topic, and tagged with unsupervised techniques using only lyrics information.Maestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e IndustrialDepartamento de Ingeniería de Sistemas e IndustrialParra Anzola, Fabio Leonardo (2013) Categorización de letras de canciones de un portal web usando agrupación. Maestría thesis, Universidad Nacional de Colombia.0 Generalidades / Computer science, information and general works62 Ingeniería y operaciones afines / Engineering78 Música / MusicRecuperación de Información MusicalAgrupación de Páginas WebAgrupaciónAprendizaje no SupervisadoSelección de CaracterísticasMinería de DatosMinería de Texto Análisis de Letras de CancionesReglas de AsociaciónMusic Information RetrievalClusteringUnsupervised LearningFeature SelectionData MiningText MiningLyrics AnalysisAssociation RulesCategorización de letras de canciones de un portal web usando agrupaciónTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMORIGINAL02822295.2013.pdfapplication/pdf869174https://repositorio.unal.edu.co/bitstream/unal/52054/1/02822295.2013.pdfa29bda3b8292fabea02ccda37b84a887MD51THUMBNAIL02822295.2013.pdf.jpg02822295.2013.pdf.jpgGenerated Thumbnailimage/jpeg4423https://repositorio.unal.edu.co/bitstream/unal/52054/2/02822295.2013.pdf.jpgbbdc74393b44ccd463125921f0dab850MD52unal/52054oai:repositorio.unal.edu.co:unal/520542024-02-29 23:08:43.689Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co