Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias
En Colombia, las enfermedades coronarias son una de las principales causas de muerte. El uso de técnicas de Machine Learning para diagnóstico temprano se ha mostrado ser valioso. Sin embargo, la gran cantidad de literatura científica dificulta su análisis eficiente. Por ello, son fundamentales las h...
- Autores:
-
Bastidas Rodríguez, Angie Lorena
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2023
- Institución:
- Universidad El Bosque
- Repositorio:
- Repositorio U. El Bosque
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unbosque.edu.co:20.500.12495/11792
- Acceso en línea:
- http://hdl.handle.net/20.500.12495/11792
- Palabra clave:
- Minería de texto
Clustering de texto
Clustering Jerárquico
Clustering K-Means
Clustering DBSCAN
Machine Learning
Enfermedades coronarias
Diagnostico
519.5
Text mining
Text clustering
Hierarchical clustering
K-Means clustering
DBSCAN clustering
Machine Learning
Coronary heart diseases
Diagnosis
- Rights
- openAccess
- License
- Atribución-NoComercial-CompartirIgual 4.0 Internacional
id |
UNBOSQUE2_9bf6435df9c5e179fd72e532e5e7820c |
---|---|
oai_identifier_str |
oai:repositorio.unbosque.edu.co:20.500.12495/11792 |
network_acronym_str |
UNBOSQUE2 |
network_name_str |
Repositorio U. El Bosque |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias |
dc.title.translated.spa.fl_str_mv |
Construction of clusters of scientific articles in English (2010 - 2022) related to Machine Learning techniques in the diagnosis of coronary heart diseases |
title |
Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias |
spellingShingle |
Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias Minería de texto Clustering de texto Clustering Jerárquico Clustering K-Means Clustering DBSCAN Machine Learning Enfermedades coronarias Diagnostico 519.5 Text mining Text clustering Hierarchical clustering K-Means clustering DBSCAN clustering Machine Learning Coronary heart diseases Diagnosis |
title_short |
Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias |
title_full |
Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias |
title_fullStr |
Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias |
title_full_unstemmed |
Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias |
title_sort |
Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias |
dc.creator.fl_str_mv |
Bastidas Rodríguez, Angie Lorena |
dc.contributor.advisor.none.fl_str_mv |
Ramos Montaña, Jesús David |
dc.contributor.author.none.fl_str_mv |
Bastidas Rodríguez, Angie Lorena |
dc.subject.spa.fl_str_mv |
Minería de texto Clustering de texto Clustering Jerárquico Clustering K-Means Clustering DBSCAN Machine Learning Enfermedades coronarias Diagnostico |
topic |
Minería de texto Clustering de texto Clustering Jerárquico Clustering K-Means Clustering DBSCAN Machine Learning Enfermedades coronarias Diagnostico 519.5 Text mining Text clustering Hierarchical clustering K-Means clustering DBSCAN clustering Machine Learning Coronary heart diseases Diagnosis |
dc.subject.ddc.none.fl_str_mv |
519.5 |
dc.subject.keywords.spa.fl_str_mv |
Text mining Text clustering Hierarchical clustering K-Means clustering DBSCAN clustering Machine Learning Coronary heart diseases Diagnosis |
description |
En Colombia, las enfermedades coronarias son una de las principales causas de muerte. El uso de técnicas de Machine Learning para diagnóstico temprano se ha mostrado ser valioso. Sin embargo, la gran cantidad de literatura científica dificulta su análisis eficiente. Por ello, son fundamentales las herramientas de minería de texto para procesar y extraer información de manera automática. Para este trabajo se obtuvieron 71 documentos sobre el diagnóstico de enfermedades coronarias mediante técnicas de Machine Learning en inglés, abarcando el período de 2010 a 2022. De estos documentos se extrajeron metadatos, como el título, autor, palabras clave, año de publicación, revista donde se publicó y resumen (abstract). A estos datos se les aplicaron técnicas de minería de texto y se convirtieron en datos estructurados. Luego, se utilizaron tres métodos diferentes de clustering (Jerárquico, K-Means y DBSCAN), donde se calculó la matriz de términos ponderados mediante TF-IDF y donde la métrica utilizada para medir la similitud entre documentos se realizó a través de la distancia coseno. Además, mediante métricas para la validación de los clústeres, se determinó qué método tiene el mejor rendimiento en la agrupación de los documentos textuales. Considerando las condiciones específicas de los datos, se concluyó que el clustering mediante el método K-Means agrupó los documentos de manera más adecuada, a pesar de ser un método antiguo, sigue siendo efectivo. |
publishDate |
2023 |
dc.date.accessioned.none.fl_str_mv |
2023-12-15T17:31:23Z |
dc.date.available.none.fl_str_mv |
2023-12-15T17:31:23Z |
dc.date.issued.none.fl_str_mv |
2023 |
dc.type.local.spa.fl_str_mv |
Tesis/Trabajo de grado - Monografía - Pregrado |
dc.type.hasversion.none.fl_str_mv |
info:eu-repo/semantics/acceptedVersion |
dc.type.coar.none.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
dc.type.driver.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
http://purl.org/coar/resource_type/c_7a1f |
status_str |
acceptedVersion |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/20.500.12495/11792 |
dc.identifier.instname.spa.fl_str_mv |
instname:Universidad El Bosque |
dc.identifier.reponame.spa.fl_str_mv |
reponame:Repositorio Institucional Universidad El Bosque |
dc.identifier.repourl.none.fl_str_mv |
repourl:https://repositorio.unbosque.edu.co |
url |
http://hdl.handle.net/20.500.12495/11792 |
identifier_str_mv |
instname:Universidad El Bosque reponame:Repositorio Institucional Universidad El Bosque repourl:https://repositorio.unbosque.edu.co |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.rights.*.fl_str_mv |
Atribución-NoComercial-CompartirIgual 4.0 Internacional |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ |
dc.rights.local.spa.fl_str_mv |
Acceso abierto |
dc.rights.accessrights.none.fl_str_mv |
info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Atribución-NoComercial-CompartirIgual 4.0 Internacional http://creativecommons.org/licenses/by-nc-sa/4.0/ Acceso abierto http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.mimetype.none.fl_str_mv |
application/pdf |
dc.publisher.program.spa.fl_str_mv |
Estadística |
dc.publisher.grantor.spa.fl_str_mv |
Universidad El Bosque |
dc.publisher.faculty.spa.fl_str_mv |
Facultad de Ciencias |
institution |
Universidad El Bosque |
bitstream.url.fl_str_mv |
https://repositorio.unbosque.edu.co/bitstreams/e088d11a-befb-4cf4-b09c-1d1f8ea6a095/download https://repositorio.unbosque.edu.co/bitstreams/ec5395fd-8adc-4fd3-b08a-7f176e06fc72/download https://repositorio.unbosque.edu.co/bitstreams/23aef35a-ff82-4887-acc3-a251f3cc6e7d/download https://repositorio.unbosque.edu.co/bitstreams/0ea2af05-e573-419d-a885-3949dc826551/download https://repositorio.unbosque.edu.co/bitstreams/f09d3ff6-c019-4e2c-80f2-9513f7a92806/download https://repositorio.unbosque.edu.co/bitstreams/1f8c76ed-38e5-4c99-9027-353d2512893f/download |
bitstream.checksum.fl_str_mv |
934f4ca17e109e0a05eaeaba504d7ce4 86d026573f210a43a1d24d15bc9375d9 17cc15b951e7cc6b3728a574117320f9 6654b7142bfb207784d25db3e915b9d3 bab7419ee62bfb91df2096d8e3c3720b 62b3e708b3a5321841470809c3aef0c3 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional Universidad El Bosque |
repository.mail.fl_str_mv |
bibliotecas@biteca.com |
_version_ |
1814100800698318848 |
spelling |
Ramos Montaña, Jesús DavidBastidas Rodríguez, Angie Lorena2023-12-15T17:31:23Z2023-12-15T17:31:23Z2023http://hdl.handle.net/20.500.12495/11792instname:Universidad El Bosquereponame:Repositorio Institucional Universidad El Bosquerepourl:https://repositorio.unbosque.edu.coEn Colombia, las enfermedades coronarias son una de las principales causas de muerte. El uso de técnicas de Machine Learning para diagnóstico temprano se ha mostrado ser valioso. Sin embargo, la gran cantidad de literatura científica dificulta su análisis eficiente. Por ello, son fundamentales las herramientas de minería de texto para procesar y extraer información de manera automática. Para este trabajo se obtuvieron 71 documentos sobre el diagnóstico de enfermedades coronarias mediante técnicas de Machine Learning en inglés, abarcando el período de 2010 a 2022. De estos documentos se extrajeron metadatos, como el título, autor, palabras clave, año de publicación, revista donde se publicó y resumen (abstract). A estos datos se les aplicaron técnicas de minería de texto y se convirtieron en datos estructurados. Luego, se utilizaron tres métodos diferentes de clustering (Jerárquico, K-Means y DBSCAN), donde se calculó la matriz de términos ponderados mediante TF-IDF y donde la métrica utilizada para medir la similitud entre documentos se realizó a través de la distancia coseno. Además, mediante métricas para la validación de los clústeres, se determinó qué método tiene el mejor rendimiento en la agrupación de los documentos textuales. Considerando las condiciones específicas de los datos, se concluyó que el clustering mediante el método K-Means agrupó los documentos de manera más adecuada, a pesar de ser un método antiguo, sigue siendo efectivo.Universidad El BosqueEstadísticoPregradoIn Colombia, coronary heart disease is one of the main causes of death. The use of Machine Learning techniques for early diagnosis has been shown to be valuable. However, the large amount of scientific literature makes its efficient analysis difficult. Therefore, text mining tools are essential to process and extract information automatically. For this work, 71 documents on the diagnosis of coronary heart diseases using Machine Learning techniques in English were obtained, compartmentalizing the period from 2010 to 2022. Metadata were extracted from these documents, such as the title, author, keywords, year of publication, magazine where it was published and summary (abstract). Text mining techniques are applied to this data and it is converted into structured data. Then, three different clustering methods were used (Hierarchical, K-Means and DBSCAN), where the matrix of weighted terms was calculated using TF-IDF and where the metric used to measure the similarity between documents was done through the cosine distance. Furthermore, using metrics for cluster validation, we will consider which method has the best performance in grouping textual documents. Considering the specific conditions of the data, it was concluded that clustering using the K-Means method grouped the documents more adequately, despite being an old method, it is still effective.application/pdfspaAtribución-NoComercial-CompartirIgual 4.0 Internacionalhttp://creativecommons.org/licenses/by-nc-sa/4.0/Acceso abiertoinfo:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Minería de textoClustering de textoClustering JerárquicoClustering K-MeansClustering DBSCANMachine LearningEnfermedades coronariasDiagnostico519.5Text miningText clusteringHierarchical clusteringK-Means clusteringDBSCAN clusteringMachine LearningCoronary heart diseasesDiagnosisConstrucción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronariasConstruction of clusters of scientific articles in English (2010 - 2022) related to Machine Learning techniques in the diagnosis of coronary heart diseasesEstadísticaUniversidad El BosqueFacultad de CienciasTesis/Trabajo de grado - Monografía - Pregradoinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:eu-repo/semantics/bachelorThesisCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81031https://repositorio.unbosque.edu.co/bitstreams/e088d11a-befb-4cf4-b09c-1d1f8ea6a095/download934f4ca17e109e0a05eaeaba504d7ce4MD53carta de autorización.pdfcarta de autorización.pdfCarta de autorizaciónapplication/pdf377596https://repositorio.unbosque.edu.co/bitstreams/ec5395fd-8adc-4fd3-b08a-7f176e06fc72/download86d026573f210a43a1d24d15bc9375d9MD56LICENSElicense.txtlicense.txttext/plain; charset=utf-82000https://repositorio.unbosque.edu.co/bitstreams/23aef35a-ff82-4887-acc3-a251f3cc6e7d/download17cc15b951e7cc6b3728a574117320f9MD54ORIGINALTrabajo de grado.pdfTrabajo de grado.pdfConstrucción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronariasapplication/pdf1989225https://repositorio.unbosque.edu.co/bitstreams/0ea2af05-e573-419d-a885-3949dc826551/download6654b7142bfb207784d25db3e915b9d3MD55THUMBNAILTrabajo de grado.pdf.jpgTrabajo de grado.pdf.jpgIM Thumbnailimage/jpeg5704https://repositorio.unbosque.edu.co/bitstreams/f09d3ff6-c019-4e2c-80f2-9513f7a92806/downloadbab7419ee62bfb91df2096d8e3c3720bMD57TEXTTrabajo de grado.pdf.txtTrabajo de grado.pdf.txtExtracted texttext/plain102741https://repositorio.unbosque.edu.co/bitstreams/1f8c76ed-38e5-4c99-9027-353d2512893f/download62b3e708b3a5321841470809c3aef0c3MD5820.500.12495/11792oai:repositorio.unbosque.edu.co:20.500.12495/117922024-02-07 07:25:16.409http://creativecommons.org/licenses/by-nc-sa/4.0/Atribución-NoComercial-CompartirIgual 4.0 Internacionalopen.accesshttps://repositorio.unbosque.edu.coRepositorio Institucional Universidad El Bosquebibliotecas@biteca.comTGljZW5jaWEgZGUgRGlzdHJpYnVjacOzbiBObyBFeGNsdXNpdmEKClBhcmEgcXVlIGVsIFJlcG9zaXRvcmlvIGRlIGxhIFVuaXZlcnNpZGFkIEVsIEJvc3F1ZSBhIHB1ZWRhIHJlcHJvZHVjaXIgeSBjb211bmljYXIgcMO6YmxpY2FtZW50ZSBzdSBkb2N1bWVudG8gZXMgbmVjZXNhcmlvIGxhIGFjZXB0YWNpw7NuIGRlIGxvcyBzaWd1aWVudGVzIHTDqXJtaW5vcy4gUG9yIGZhdm9yLCBsZWEgbGFzIHNpZ3VpZW50ZXMgY29uZGljaW9uZXMgZGUgbGljZW5jaWE6CgoxLiBBY2VwdGFuZG8gZXN0YSBsaWNlbmNpYSwgdXN0ZWQgKGVsIGF1dG9yL2VzIG8gZWwgcHJvcGlldGFyaW8vcyBkZSBsb3MgZGVyZWNob3MgZGUgYXV0b3IpIGdhcmFudGl6YSBhIGxhIFVuaXZlcnNpZGFkIEVsIEJvc3F1ZSBlbCBkZXJlY2hvIG5vIGV4Y2x1c2l2byBkZSBhcmNoaXZhciwgcmVwcm9kdWNpciwgY29udmVydGlyIChjb21vIHNlIGRlZmluZSBtw6FzIGFiYWpvKSwgY29tdW5pY2FyIHkvbyBkaXN0cmlidWlyIHN1IGRvY3VtZW50byBtdW5kaWFsbWVudGUgZW4gZm9ybWF0byBlbGVjdHLDs25pY28uCgoyLiBUYW1iacOpbiBlc3TDoSBkZSBhY3VlcmRvIGNvbiBxdWUgbGEgVW5pdmVyc2lkYWQgRWwgQm9zcXVlIHB1ZWRhIGNvbnNlcnZhciBtw6FzIGRlIHVuYSBjb3BpYSBkZSBlc3RlIGRvY3VtZW50byB5LCBzaW4gYWx0ZXJhciBzdSBjb250ZW5pZG8sIGNvbnZlcnRpcmxvIGEgY3VhbHF1aWVyIGZvcm1hdG8gZGUgZmljaGVybywgbWVkaW8gbyBzb3BvcnRlLCBwYXJhIHByb3DDs3NpdG9zIGRlIHNlZ3VyaWRhZCwgcHJlc2VydmFjacOzbiB5IGFjY2Vzby4KCjMuIERlY2xhcmEgcXVlIGVsIGRvY3VtZW50byBlcyB1biB0cmFiYWpvIG9yaWdpbmFsIHN1eW8geS9vIHF1ZSB0aWVuZSBlbCBkZXJlY2hvIHBhcmEgb3RvcmdhciBsb3MgZGVyZWNob3MgY29udGVuaWRvcyBlbiBlc3RhIGxpY2VuY2lhLiBUYW1iacOpbiBkZWNsYXJhIHF1ZSBzdSBkb2N1bWVudG8gbm8gaW5mcmluZ2UsIGVuIHRhbnRvIGVuIGN1YW50byBsZSBzZWEgcG9zaWJsZSBzYWJlciwgbG9zIGRlcmVjaG9zIGRlIGF1dG9yIGRlIG5pbmd1bmEgb3RyYSBwZXJzb25hIG8gZW50aWRhZC4KCjQuIFNpIGVsIGRvY3VtZW50byBjb250aWVuZSBtYXRlcmlhbGVzIGRlIGxvcyBjdWFsZXMgbm8gdGllbmUgbG9zIGRlcmVjaG9zIGRlIGF1dG9yLCBkZWNsYXJhIHF1ZSBoYSBvYnRlbmlkbyBlbCBwZXJtaXNvIHNpbiByZXN0cmljY2nDs24gZGVsIHByb3BpZXRhcmlvIGRlIGxvcyBkZXJlY2hvcyBkZSBhdXRvciBwYXJhIG90b3JnYXIgYSBsYSBVbml2ZXJzaWRhZCBFbCBCb3NxdWUgbG9zIGRlcmVjaG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW5jaWEsIHkgcXVlIGVzZSBtYXRlcmlhbCBjdXlvcyBkZXJlY2hvcyBzb24gZGUgdGVyY2Vyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8geSByZWNvbm9jaWRvIGVuIGVsIHRleHRvIG8gY29udGVuaWRvIGRlbCBkb2N1bWVudG8gZW50cmVnYWRvLgoKNS4gU2kgZWwgZG9jdW1lbnRvIHNlIGJhc2EgZW4gdW5hIG9icmEgcXVlIGhhIHNpZG8gcGF0cm9jaW5hZGEgbyBhcG95YWRhIHBvciB1bmEgYWdlbmNpYSB1IG9yZ2FuaXphY2nDs24gZGlmZXJlbnRlIGRlIGxhIFVuaXZlcnNpZGFkIEVsIEJvc3F1ZSwgc2UgcHJlc3Vwb25lIHF1ZSBzZSBoYSBjdW1wbGlkbyBjb24gY3VhbHF1aWVyIGRlcmVjaG8gZGUgcmV2aXNpw7NuIHUgb3RyYXMgb2JsaWdhY2lvbmVzIHJlcXVlcmlkYXMgcG9yIGVzdGUgY29udHJhdG8gbyBhY3VlcmRvLgoKNi4gVW5pdmVyc2lkYWQgRWwgQm9zcXVlIGlkZW50aWZpY2Fyw6EgY2xhcmFtZW50ZSBzdS9zIG5vbWJyZS9zIGNvbW8gZWwvbG9zIGF1dG9yL2VzIG8gcHJvcGlldGFyaW8vcyBkZSBsb3MgZGVyZWNob3MgZGVsIGRvY3VtZW50bywgeSBubyBoYXLDoSBuaW5ndW5hIGFsdGVyYWNpw7NuIGRlIHN1IGRvY3VtZW50byBkaWZlcmVudGUgYSBsYXMgcGVybWl0aWRhcyBlbiBlc3RhIGxpY2VuY2lhLgo= |