Agrupación de textos cortos para el análisis de temas latentes de investigación en un conjunto de datos de proyectos de investigación

Los documentos de texto son una fuente importante de datos para las técnicas de minería. Normalmente, las bases de datos de texto incluyen documentos suficientemente largos para aplicar técnicas de minería de texto convencionales. Sin embargo, en algunas tareas, como el proceso de identificación de...

Full description

Autores:
Carrasco Ortiz, Jorge Mario
Tipo de recurso:
Fecha de publicación:
2017
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/63050
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/63050
http://bdigital.unal.edu.co/62532/
Palabra clave:
0 Generalidades / Computer science, information and general works
02 Bibliotecología y ciencias de la información / Library and information sciences
8 Literatura y retórica / Literature
Agrupación
Textos cortos
Representación distribucional de términos
Kernel k-medias
Word2Vec
Scopus
ScienceDirect
Clustering
Short texts
Distributional term representation
NMF
Information retrival
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
id UNACIONAL2_588583a395f0dcba04f724c9b0e9de57
oai_identifier_str oai:repositorio.unal.edu.co:unal/63050
network_acronym_str UNACIONAL2
network_name_str Universidad Nacional de Colombia
repository_id_str
dc.title.spa.fl_str_mv Agrupación de textos cortos para el análisis de temas latentes de investigación en un conjunto de datos de proyectos de investigación
title Agrupación de textos cortos para el análisis de temas latentes de investigación en un conjunto de datos de proyectos de investigación
spellingShingle Agrupación de textos cortos para el análisis de temas latentes de investigación en un conjunto de datos de proyectos de investigación
0 Generalidades / Computer science, information and general works
02 Bibliotecología y ciencias de la información / Library and information sciences
8 Literatura y retórica / Literature
Agrupación
Textos cortos
Representación distribucional de términos
Kernel k-medias
Word2Vec
Scopus
ScienceDirect
Clustering
Short texts
Distributional term representation
NMF
Information retrival
title_short Agrupación de textos cortos para el análisis de temas latentes de investigación en un conjunto de datos de proyectos de investigación
title_full Agrupación de textos cortos para el análisis de temas latentes de investigación en un conjunto de datos de proyectos de investigación
title_fullStr Agrupación de textos cortos para el análisis de temas latentes de investigación en un conjunto de datos de proyectos de investigación
title_full_unstemmed Agrupación de textos cortos para el análisis de temas latentes de investigación en un conjunto de datos de proyectos de investigación
title_sort Agrupación de textos cortos para el análisis de temas latentes de investigación en un conjunto de datos de proyectos de investigación
dc.creator.fl_str_mv Carrasco Ortiz, Jorge Mario
dc.contributor.advisor.spa.fl_str_mv Sánchez Torres, Jenny Marcela (Thesis advisor)
dc.contributor.author.spa.fl_str_mv Carrasco Ortiz, Jorge Mario
dc.contributor.spa.fl_str_mv González Osorio, Fabio Augusto
dc.subject.ddc.spa.fl_str_mv 0 Generalidades / Computer science, information and general works
02 Bibliotecología y ciencias de la información / Library and information sciences
8 Literatura y retórica / Literature
topic 0 Generalidades / Computer science, information and general works
02 Bibliotecología y ciencias de la información / Library and information sciences
8 Literatura y retórica / Literature
Agrupación
Textos cortos
Representación distribucional de términos
Kernel k-medias
Word2Vec
Scopus
ScienceDirect
Clustering
Short texts
Distributional term representation
NMF
Information retrival
dc.subject.proposal.spa.fl_str_mv Agrupación
Textos cortos
Representación distribucional de términos
Kernel k-medias
Word2Vec
Scopus
ScienceDirect
Clustering
Short texts
Distributional term representation
NMF
Information retrival
description Los documentos de texto son una fuente importante de datos para las técnicas de minería. Normalmente, las bases de datos de texto incluyen documentos suficientemente largos para aplicar técnicas de minería de texto convencionales. Sin embargo, en algunas tareas, como el proceso de identificación de áreas de investigación, se cuenta con bases de datos de textos muy cortos, lo cual representa un desafío para las técnicas convencionales de minería de texto. El problema tiene que ver con el pequeño número de términos que no proporcionan suficiente información estadística para encontrar cualquier tipo de relación entre los documentos de la colección. El objetivo principal de este trabajo es mostrar cómo generar grupos temáticos utilizando solo los títulos de proyectos de investigación de una institución de educación superior. En esta tesis presentamos un método para agrupar colecciones de textos cortos a partir de representaciones distribucionales de términos. El método utiliza una colección de referencia de textos con mayor extensión, para encontrar una representación distribucional de términos (DTR, por sus siglas en inglés) que codifica relaciones semánticas y sintácticas entre términos. Estas representaciones son utilizadas posteriormente para mejorar los algoritmos de agrupación. Igualmente, exploramos diferentes estrategias para la representación de términos, así como varias estrategias para la agrupación. El método se evaluó en dos conjuntos de datos. El primero fue construido para este estudio y está compuesto de títulos de artículos científicos, el segundo conjunto de datos corresponde a los títulos de proyectos de investigación de una institución de educación superior. Los resultados fueron evaluados utilizando cuatro medidas extrínsecas (Homogeneity Score, V-measure, Adjusted MI, Pureza) para el primer conjunto de datos, y tres medidas intrínsecas (Davies-Bouldin, QError, Slihouette) para el segundo conjunto de datos. Los resultados muestran que la estrategia de representación distribucional de términos, mejora en gran medida la calidad de las agrupaciones generadas cuando se compara con la producida por las estrategias convencionales de agrupamiento de texto.
publishDate 2017
dc.date.issued.spa.fl_str_mv 2017-11
dc.date.accessioned.spa.fl_str_mv 2019-07-02T21:25:40Z
dc.date.available.spa.fl_str_mv 2019-07-02T21:25:40Z
dc.type.spa.fl_str_mv Trabajo de grado - Maestría
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TM
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv https://repositorio.unal.edu.co/handle/unal/63050
dc.identifier.eprints.spa.fl_str_mv http://bdigital.unal.edu.co/62532/
url https://repositorio.unal.edu.co/handle/unal/63050
http://bdigital.unal.edu.co/62532/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.ispartof.spa.fl_str_mv Universidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial Ingeniería de Sistemas
Ingeniería de Sistemas
dc.relation.references.spa.fl_str_mv Carrasco Ortiz, Jorge Mario (2017) Agrupación de textos cortos para el análisis de temas latentes de investigación en un conjunto de datos de proyectos de investigación. Maestría thesis, Universidad Nacional de Colombia - Sede Bogotá.
dc.rights.spa.fl_str_mv Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial 4.0 Internacional
Derechos reservados - Universidad Nacional de Colombia
http://creativecommons.org/licenses/by-nc/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
institution Universidad Nacional de Colombia
bitstream.url.fl_str_mv https://repositorio.unal.edu.co/bitstream/unal/63050/1/TesisMSc_f.pdf
https://repositorio.unal.edu.co/bitstream/unal/63050/2/TesisMSc_f.pdf.jpg
bitstream.checksum.fl_str_mv 136a9773940377d8db574902d2487e21
92f668c9e7c407c20c54bd2140ffb2b5
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv repositorio_nal@unal.edu.co
_version_ 1812169305378258944
spelling Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2González Osorio, Fabio AugustoSánchez Torres, Jenny Marcela (Thesis advisor)df06e5d0-9f62-4bf6-8d45-e2b5152ee9d8-1Carrasco Ortiz, Jorge Mario5ab31a18-3e1b-411b-9609-fd8c7aa2b7d23002019-07-02T21:25:40Z2019-07-02T21:25:40Z2017-11https://repositorio.unal.edu.co/handle/unal/63050http://bdigital.unal.edu.co/62532/Los documentos de texto son una fuente importante de datos para las técnicas de minería. Normalmente, las bases de datos de texto incluyen documentos suficientemente largos para aplicar técnicas de minería de texto convencionales. Sin embargo, en algunas tareas, como el proceso de identificación de áreas de investigación, se cuenta con bases de datos de textos muy cortos, lo cual representa un desafío para las técnicas convencionales de minería de texto. El problema tiene que ver con el pequeño número de términos que no proporcionan suficiente información estadística para encontrar cualquier tipo de relación entre los documentos de la colección. El objetivo principal de este trabajo es mostrar cómo generar grupos temáticos utilizando solo los títulos de proyectos de investigación de una institución de educación superior. En esta tesis presentamos un método para agrupar colecciones de textos cortos a partir de representaciones distribucionales de términos. El método utiliza una colección de referencia de textos con mayor extensión, para encontrar una representación distribucional de términos (DTR, por sus siglas en inglés) que codifica relaciones semánticas y sintácticas entre términos. Estas representaciones son utilizadas posteriormente para mejorar los algoritmos de agrupación. Igualmente, exploramos diferentes estrategias para la representación de términos, así como varias estrategias para la agrupación. El método se evaluó en dos conjuntos de datos. El primero fue construido para este estudio y está compuesto de títulos de artículos científicos, el segundo conjunto de datos corresponde a los títulos de proyectos de investigación de una institución de educación superior. Los resultados fueron evaluados utilizando cuatro medidas extrínsecas (Homogeneity Score, V-measure, Adjusted MI, Pureza) para el primer conjunto de datos, y tres medidas intrínsecas (Davies-Bouldin, QError, Slihouette) para el segundo conjunto de datos. Los resultados muestran que la estrategia de representación distribucional de términos, mejora en gran medida la calidad de las agrupaciones generadas cuando se compara con la producida por las estrategias convencionales de agrupamiento de texto.Abstract: Text documents are an important source of data for tech mining techniques. Usually, text databases include documents sufficiently long to apply conventional text mining techniques. However, for some tech mining tasks, such as capabilities identification process, the databases available are comprised of very short texts, which represents a challenge for conventional text mining techniques. The problem in question is that the small number of terms fail to provide enough statistical information to find any kind of relationship among the documents in the collection. The main purpose of this work is to show how to generate thematic clusters by using only the titles of research projects from a higher education institution. In this thesis we present a method for clustering very-short-text collections based on distributional text representations. The method uses a reference collection of large texts to find a distributional term representation (DTR) that encodes semantic and syntactic relationships among terms. The DTR is used to represent the very-short texts which are fed to a clustering algorithm. Likewise, we explore different strategies for distributional term representation as well as for clustering. The method was evaluated in two datasets. The first one was assembled for this study and is composed of scientific paper titles, and the second one corresponds to the titles of a set of research projects from a higher education institution. The results were evaluated by using four extrinsic measures (Homogeneity Score, V-measure, Adjusted MI, Purity) for the first dataset, and three intrinsic measures (Davies-Bouldin, QError, Slihouette) for the second dataset. The results show that the distributional term representation strategy greatly improves the quality of the generated clusterings when compared to the one produced by conventional text clustering strategies.Maestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial Ingeniería de SistemasIngeniería de SistemasCarrasco Ortiz, Jorge Mario (2017) Agrupación de textos cortos para el análisis de temas latentes de investigación en un conjunto de datos de proyectos de investigación. Maestría thesis, Universidad Nacional de Colombia - Sede Bogotá.0 Generalidades / Computer science, information and general works02 Bibliotecología y ciencias de la información / Library and information sciences8 Literatura y retórica / LiteratureAgrupaciónTextos cortosRepresentación distribucional de términosKernel k-mediasWord2VecScopusScienceDirectClusteringShort textsDistributional term representationNMFInformation retrivalAgrupación de textos cortos para el análisis de temas latentes de investigación en un conjunto de datos de proyectos de investigaciónTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMORIGINALTesisMSc_f.pdfapplication/pdf1687613https://repositorio.unal.edu.co/bitstream/unal/63050/1/TesisMSc_f.pdf136a9773940377d8db574902d2487e21MD51THUMBNAILTesisMSc_f.pdf.jpgTesisMSc_f.pdf.jpgGenerated Thumbnailimage/jpeg3972https://repositorio.unal.edu.co/bitstream/unal/63050/2/TesisMSc_f.pdf.jpg92f668c9e7c407c20c54bd2140ffb2b5MD52unal/63050oai:repositorio.unal.edu.co:unal/630502023-04-19 23:07:58.609Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co