Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias

En Colombia, las enfermedades coronarias son una de las principales causas de muerte. El uso de técnicas de Machine Learning para diagnóstico temprano se ha mostrado ser valioso. Sin embargo, la gran cantidad de literatura científica dificulta su análisis eficiente. Por ello, son fundamentales las h...

Full description

Autores:
Bastidas Rodríguez, Angie Lorena
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2023
Institución:
Universidad El Bosque
Repositorio:
Repositorio U. El Bosque
Idioma:
spa
OAI Identifier:
oai:repositorio.unbosque.edu.co:20.500.12495/11792
Acceso en línea:
http://hdl.handle.net/20.500.12495/11792
Palabra clave:
Minería de texto
Clustering de texto
Clustering Jerárquico
Clustering K-Means
Clustering DBSCAN
Machine Learning
Enfermedades coronarias
Diagnostico
519.5
Text mining
Text clustering
Hierarchical clustering
K-Means clustering
DBSCAN clustering
Machine Learning
Coronary heart diseases
Diagnosis
Rights
openAccess
License
Atribución-NoComercial-CompartirIgual 4.0 Internacional
id UNBOSQUE2_9bf6435df9c5e179fd72e532e5e7820c
oai_identifier_str oai:repositorio.unbosque.edu.co:20.500.12495/11792
network_acronym_str UNBOSQUE2
network_name_str Repositorio U. El Bosque
repository_id_str
dc.title.spa.fl_str_mv Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias
dc.title.translated.spa.fl_str_mv Construction of clusters of scientific articles in English (2010 - 2022) related to Machine Learning techniques in the diagnosis of coronary heart diseases
title Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias
spellingShingle Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias
Minería de texto
Clustering de texto
Clustering Jerárquico
Clustering K-Means
Clustering DBSCAN
Machine Learning
Enfermedades coronarias
Diagnostico
519.5
Text mining
Text clustering
Hierarchical clustering
K-Means clustering
DBSCAN clustering
Machine Learning
Coronary heart diseases
Diagnosis
title_short Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias
title_full Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias
title_fullStr Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias
title_full_unstemmed Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias
title_sort Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias
dc.creator.fl_str_mv Bastidas Rodríguez, Angie Lorena
dc.contributor.advisor.none.fl_str_mv Ramos Montaña, Jesús David
dc.contributor.author.none.fl_str_mv Bastidas Rodríguez, Angie Lorena
dc.subject.spa.fl_str_mv Minería de texto
Clustering de texto
Clustering Jerárquico
Clustering K-Means
Clustering DBSCAN
Machine Learning
Enfermedades coronarias
Diagnostico
topic Minería de texto
Clustering de texto
Clustering Jerárquico
Clustering K-Means
Clustering DBSCAN
Machine Learning
Enfermedades coronarias
Diagnostico
519.5
Text mining
Text clustering
Hierarchical clustering
K-Means clustering
DBSCAN clustering
Machine Learning
Coronary heart diseases
Diagnosis
dc.subject.ddc.none.fl_str_mv 519.5
dc.subject.keywords.spa.fl_str_mv Text mining
Text clustering
Hierarchical clustering
K-Means clustering
DBSCAN clustering
Machine Learning
Coronary heart diseases
Diagnosis
description En Colombia, las enfermedades coronarias son una de las principales causas de muerte. El uso de técnicas de Machine Learning para diagnóstico temprano se ha mostrado ser valioso. Sin embargo, la gran cantidad de literatura científica dificulta su análisis eficiente. Por ello, son fundamentales las herramientas de minería de texto para procesar y extraer información de manera automática. Para este trabajo se obtuvieron 71 documentos sobre el diagnóstico de enfermedades coronarias mediante técnicas de Machine Learning en inglés, abarcando el período de 2010 a 2022. De estos documentos se extrajeron metadatos, como el título, autor, palabras clave, año de publicación, revista donde se publicó y resumen (abstract). A estos datos se les aplicaron técnicas de minería de texto y se convirtieron en datos estructurados. Luego, se utilizaron tres métodos diferentes de clustering (Jerárquico, K-Means y DBSCAN), donde se calculó la matriz de términos ponderados mediante TF-IDF y donde la métrica utilizada para medir la similitud entre documentos se realizó a través de la distancia coseno. Además, mediante métricas para la validación de los clústeres, se determinó qué método tiene el mejor rendimiento en la agrupación de los documentos textuales. Considerando las condiciones específicas de los datos, se concluyó que el clustering mediante el método K-Means agrupó los documentos de manera más adecuada, a pesar de ser un método antiguo, sigue siendo efectivo.
publishDate 2023
dc.date.accessioned.none.fl_str_mv 2023-12-15T17:31:23Z
dc.date.available.none.fl_str_mv 2023-12-15T17:31:23Z
dc.date.issued.none.fl_str_mv 2023
dc.type.local.spa.fl_str_mv Tesis/Trabajo de grado - Monografía - Pregrado
dc.type.hasversion.none.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.driver.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
format http://purl.org/coar/resource_type/c_7a1f
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12495/11792
dc.identifier.instname.spa.fl_str_mv instname:Universidad El Bosque
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional Universidad El Bosque
dc.identifier.repourl.none.fl_str_mv repourl:https://repositorio.unbosque.edu.co
url http://hdl.handle.net/20.500.12495/11792
identifier_str_mv instname:Universidad El Bosque
reponame:Repositorio Institucional Universidad El Bosque
repourl:https://repositorio.unbosque.edu.co
dc.language.iso.spa.fl_str_mv spa
language spa
dc.rights.*.fl_str_mv Atribución-NoComercial-CompartirIgual 4.0 Internacional
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.local.spa.fl_str_mv Acceso abierto
dc.rights.accessrights.none.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial-CompartirIgual 4.0 Internacional
http://creativecommons.org/licenses/by-nc-sa/4.0/
Acceso abierto
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.program.spa.fl_str_mv Estadística
dc.publisher.grantor.spa.fl_str_mv Universidad El Bosque
dc.publisher.faculty.spa.fl_str_mv Facultad de Ciencias
institution Universidad El Bosque
bitstream.url.fl_str_mv https://repositorio.unbosque.edu.co/bitstreams/e088d11a-befb-4cf4-b09c-1d1f8ea6a095/download
https://repositorio.unbosque.edu.co/bitstreams/ec5395fd-8adc-4fd3-b08a-7f176e06fc72/download
https://repositorio.unbosque.edu.co/bitstreams/23aef35a-ff82-4887-acc3-a251f3cc6e7d/download
https://repositorio.unbosque.edu.co/bitstreams/0ea2af05-e573-419d-a885-3949dc826551/download
https://repositorio.unbosque.edu.co/bitstreams/f09d3ff6-c019-4e2c-80f2-9513f7a92806/download
https://repositorio.unbosque.edu.co/bitstreams/1f8c76ed-38e5-4c99-9027-353d2512893f/download
bitstream.checksum.fl_str_mv 934f4ca17e109e0a05eaeaba504d7ce4
86d026573f210a43a1d24d15bc9375d9
17cc15b951e7cc6b3728a574117320f9
6654b7142bfb207784d25db3e915b9d3
bab7419ee62bfb91df2096d8e3c3720b
62b3e708b3a5321841470809c3aef0c3
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad El Bosque
repository.mail.fl_str_mv bibliotecas@biteca.com
_version_ 1814100800698318848
spelling Ramos Montaña, Jesús DavidBastidas Rodríguez, Angie Lorena2023-12-15T17:31:23Z2023-12-15T17:31:23Z2023http://hdl.handle.net/20.500.12495/11792instname:Universidad El Bosquereponame:Repositorio Institucional Universidad El Bosquerepourl:https://repositorio.unbosque.edu.coEn Colombia, las enfermedades coronarias son una de las principales causas de muerte. El uso de técnicas de Machine Learning para diagnóstico temprano se ha mostrado ser valioso. Sin embargo, la gran cantidad de literatura científica dificulta su análisis eficiente. Por ello, son fundamentales las herramientas de minería de texto para procesar y extraer información de manera automática. Para este trabajo se obtuvieron 71 documentos sobre el diagnóstico de enfermedades coronarias mediante técnicas de Machine Learning en inglés, abarcando el período de 2010 a 2022. De estos documentos se extrajeron metadatos, como el título, autor, palabras clave, año de publicación, revista donde se publicó y resumen (abstract). A estos datos se les aplicaron técnicas de minería de texto y se convirtieron en datos estructurados. Luego, se utilizaron tres métodos diferentes de clustering (Jerárquico, K-Means y DBSCAN), donde se calculó la matriz de términos ponderados mediante TF-IDF y donde la métrica utilizada para medir la similitud entre documentos se realizó a través de la distancia coseno. Además, mediante métricas para la validación de los clústeres, se determinó qué método tiene el mejor rendimiento en la agrupación de los documentos textuales. Considerando las condiciones específicas de los datos, se concluyó que el clustering mediante el método K-Means agrupó los documentos de manera más adecuada, a pesar de ser un método antiguo, sigue siendo efectivo.Universidad El BosqueEstadísticoPregradoIn Colombia, coronary heart disease is one of the main causes of death. The use of Machine Learning techniques for early diagnosis has been shown to be valuable. However, the large amount of scientific literature makes its efficient analysis difficult. Therefore, text mining tools are essential to process and extract information automatically. For this work, 71 documents on the diagnosis of coronary heart diseases using Machine Learning techniques in English were obtained, compartmentalizing the period from 2010 to 2022. Metadata were extracted from these documents, such as the title, author, keywords, year of publication, magazine where it was published and summary (abstract). Text mining techniques are applied to this data and it is converted into structured data. Then, three different clustering methods were used (Hierarchical, K-Means and DBSCAN), where the matrix of weighted terms was calculated using TF-IDF and where the metric used to measure the similarity between documents was done through the cosine distance. Furthermore, using metrics for cluster validation, we will consider which method has the best performance in grouping textual documents. Considering the specific conditions of the data, it was concluded that clustering using the K-Means method grouped the documents more adequately, despite being an old method, it is still effective.application/pdfspaAtribución-NoComercial-CompartirIgual 4.0 Internacionalhttp://creativecommons.org/licenses/by-nc-sa/4.0/Acceso abiertoinfo:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Minería de textoClustering de textoClustering JerárquicoClustering K-MeansClustering DBSCANMachine LearningEnfermedades coronariasDiagnostico519.5Text miningText clusteringHierarchical clusteringK-Means clusteringDBSCAN clusteringMachine LearningCoronary heart diseasesDiagnosisConstrucción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronariasConstruction of clusters of scientific articles in English (2010 - 2022) related to Machine Learning techniques in the diagnosis of coronary heart diseasesEstadísticaUniversidad El BosqueFacultad de CienciasTesis/Trabajo de grado - Monografía - Pregradoinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:eu-repo/semantics/bachelorThesisCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81031https://repositorio.unbosque.edu.co/bitstreams/e088d11a-befb-4cf4-b09c-1d1f8ea6a095/download934f4ca17e109e0a05eaeaba504d7ce4MD53carta de autorización.pdfcarta de autorización.pdfCarta de autorizaciónapplication/pdf377596https://repositorio.unbosque.edu.co/bitstreams/ec5395fd-8adc-4fd3-b08a-7f176e06fc72/download86d026573f210a43a1d24d15bc9375d9MD56LICENSElicense.txtlicense.txttext/plain; charset=utf-82000https://repositorio.unbosque.edu.co/bitstreams/23aef35a-ff82-4887-acc3-a251f3cc6e7d/download17cc15b951e7cc6b3728a574117320f9MD54ORIGINALTrabajo de grado.pdfTrabajo de grado.pdfConstrucción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronariasapplication/pdf1989225https://repositorio.unbosque.edu.co/bitstreams/0ea2af05-e573-419d-a885-3949dc826551/download6654b7142bfb207784d25db3e915b9d3MD55THUMBNAILTrabajo de grado.pdf.jpgTrabajo de grado.pdf.jpgIM Thumbnailimage/jpeg5704https://repositorio.unbosque.edu.co/bitstreams/f09d3ff6-c019-4e2c-80f2-9513f7a92806/downloadbab7419ee62bfb91df2096d8e3c3720bMD57TEXTTrabajo de grado.pdf.txtTrabajo de grado.pdf.txtExtracted texttext/plain102741https://repositorio.unbosque.edu.co/bitstreams/1f8c76ed-38e5-4c99-9027-353d2512893f/download62b3e708b3a5321841470809c3aef0c3MD5820.500.12495/11792oai:repositorio.unbosque.edu.co:20.500.12495/117922024-02-07 07:25:16.409http://creativecommons.org/licenses/by-nc-sa/4.0/Atribución-NoComercial-CompartirIgual 4.0 Internacionalopen.accesshttps://repositorio.unbosque.edu.coRepositorio Institucional Universidad El Bosquebibliotecas@biteca.comTGljZW5jaWEgZGUgRGlzdHJpYnVjacOzbiBObyBFeGNsdXNpdmEKClBhcmEgcXVlIGVsIFJlcG9zaXRvcmlvIGRlIGxhIFVuaXZlcnNpZGFkIEVsIEJvc3F1ZSBhIHB1ZWRhIHJlcHJvZHVjaXIgeSBjb211bmljYXIgcMO6YmxpY2FtZW50ZSBzdSBkb2N1bWVudG8gZXMgbmVjZXNhcmlvIGxhIGFjZXB0YWNpw7NuIGRlIGxvcyBzaWd1aWVudGVzIHTDqXJtaW5vcy4gUG9yIGZhdm9yLCBsZWEgbGFzIHNpZ3VpZW50ZXMgY29uZGljaW9uZXMgZGUgbGljZW5jaWE6CgoxLiBBY2VwdGFuZG8gZXN0YSBsaWNlbmNpYSwgdXN0ZWQgKGVsIGF1dG9yL2VzIG8gZWwgcHJvcGlldGFyaW8vcyBkZSBsb3MgZGVyZWNob3MgZGUgYXV0b3IpIGdhcmFudGl6YSBhIGxhIFVuaXZlcnNpZGFkIEVsIEJvc3F1ZSBlbCBkZXJlY2hvIG5vIGV4Y2x1c2l2byBkZSBhcmNoaXZhciwgcmVwcm9kdWNpciwgY29udmVydGlyIChjb21vIHNlIGRlZmluZSBtw6FzIGFiYWpvKSwgY29tdW5pY2FyIHkvbyBkaXN0cmlidWlyIHN1IGRvY3VtZW50byBtdW5kaWFsbWVudGUgZW4gZm9ybWF0byBlbGVjdHLDs25pY28uCgoyLiBUYW1iacOpbiBlc3TDoSBkZSBhY3VlcmRvIGNvbiBxdWUgbGEgVW5pdmVyc2lkYWQgRWwgQm9zcXVlIHB1ZWRhIGNvbnNlcnZhciBtw6FzIGRlIHVuYSBjb3BpYSBkZSBlc3RlIGRvY3VtZW50byB5LCBzaW4gYWx0ZXJhciBzdSBjb250ZW5pZG8sIGNvbnZlcnRpcmxvIGEgY3VhbHF1aWVyIGZvcm1hdG8gZGUgZmljaGVybywgbWVkaW8gbyBzb3BvcnRlLCBwYXJhIHByb3DDs3NpdG9zIGRlIHNlZ3VyaWRhZCwgcHJlc2VydmFjacOzbiB5IGFjY2Vzby4KCjMuIERlY2xhcmEgcXVlIGVsIGRvY3VtZW50byBlcyB1biB0cmFiYWpvIG9yaWdpbmFsIHN1eW8geS9vIHF1ZSB0aWVuZSBlbCBkZXJlY2hvIHBhcmEgb3RvcmdhciBsb3MgZGVyZWNob3MgY29udGVuaWRvcyBlbiBlc3RhIGxpY2VuY2lhLiBUYW1iacOpbiBkZWNsYXJhIHF1ZSBzdSBkb2N1bWVudG8gbm8gaW5mcmluZ2UsIGVuIHRhbnRvIGVuIGN1YW50byBsZSBzZWEgcG9zaWJsZSBzYWJlciwgbG9zIGRlcmVjaG9zIGRlIGF1dG9yIGRlIG5pbmd1bmEgb3RyYSBwZXJzb25hIG8gZW50aWRhZC4KCjQuIFNpIGVsIGRvY3VtZW50byBjb250aWVuZSBtYXRlcmlhbGVzIGRlIGxvcyBjdWFsZXMgbm8gdGllbmUgbG9zIGRlcmVjaG9zIGRlIGF1dG9yLCBkZWNsYXJhIHF1ZSBoYSBvYnRlbmlkbyBlbCBwZXJtaXNvIHNpbiByZXN0cmljY2nDs24gZGVsIHByb3BpZXRhcmlvIGRlIGxvcyBkZXJlY2hvcyBkZSBhdXRvciBwYXJhIG90b3JnYXIgYSBsYSBVbml2ZXJzaWRhZCBFbCBCb3NxdWUgbG9zIGRlcmVjaG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW5jaWEsIHkgcXVlIGVzZSBtYXRlcmlhbCBjdXlvcyBkZXJlY2hvcyBzb24gZGUgdGVyY2Vyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8geSByZWNvbm9jaWRvIGVuIGVsIHRleHRvIG8gY29udGVuaWRvIGRlbCBkb2N1bWVudG8gZW50cmVnYWRvLgoKNS4gU2kgZWwgZG9jdW1lbnRvIHNlIGJhc2EgZW4gdW5hIG9icmEgcXVlIGhhIHNpZG8gcGF0cm9jaW5hZGEgbyBhcG95YWRhIHBvciB1bmEgYWdlbmNpYSB1IG9yZ2FuaXphY2nDs24gZGlmZXJlbnRlIGRlIGxhIFVuaXZlcnNpZGFkIEVsIEJvc3F1ZSwgc2UgcHJlc3Vwb25lIHF1ZSBzZSBoYSBjdW1wbGlkbyBjb24gY3VhbHF1aWVyIGRlcmVjaG8gZGUgcmV2aXNpw7NuIHUgb3RyYXMgb2JsaWdhY2lvbmVzIHJlcXVlcmlkYXMgcG9yIGVzdGUgY29udHJhdG8gbyBhY3VlcmRvLgoKNi4gVW5pdmVyc2lkYWQgRWwgQm9zcXVlIGlkZW50aWZpY2Fyw6EgY2xhcmFtZW50ZSBzdS9zIG5vbWJyZS9zIGNvbW8gZWwvbG9zIGF1dG9yL2VzIG8gcHJvcGlldGFyaW8vcyBkZSBsb3MgZGVyZWNob3MgZGVsIGRvY3VtZW50bywgeSBubyBoYXLDoSBuaW5ndW5hIGFsdGVyYWNpw7NuIGRlIHN1IGRvY3VtZW50byBkaWZlcmVudGUgYSBsYXMgcGVybWl0aWRhcyBlbiBlc3RhIGxpY2VuY2lhLgo=