Evaluación de técnicas de Procesamiento de Lenguaje Natural de notas clínicas del EMR para la caracterización de pacientes

ilustraciones, gráficos, tablas

Autores:
Mestizo Valencia, Andrés David
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2022
Institución:
Unidad Central del Valle del Cauca
Repositorio:
Repositorio Institucional - Unidad Central del Valle del Cauca
Idioma:
spa
OAI Identifier:
oai:repositorio.uceva.edu.co:20.500.12993/3687
Acceso en línea:
http://hdl.handle.net/20.500.12993/3687
Palabra clave:
Machine Learning
Sepsis
LightGBM
Word2Vec
MIMIC-III
SOFA
Redes Neuronales
NLP
Machine Learning
Sepsis
LightGBM
Word2Vec
MIMIC-III
SOFA
Neural Networks
NLP
Rights
closedAccess
License
Derechos reservados - Unidad Central del Valle del Cauca
id Uceva2_708ff52bbc5709881ddded15d0279222
oai_identifier_str oai:repositorio.uceva.edu.co:20.500.12993/3687
network_acronym_str Uceva2
network_name_str Repositorio Institucional - Unidad Central del Valle del Cauca
repository_id_str
dc.title.spa.fl_str_mv Evaluación de técnicas de Procesamiento de Lenguaje Natural de notas clínicas del EMR para la caracterización de pacientes
dc.title.titleenglish.spa.fl_str_mv Assessment of Natural Language Processing techniques for characterizing patients using EMR clinical notes.
title Evaluación de técnicas de Procesamiento de Lenguaje Natural de notas clínicas del EMR para la caracterización de pacientes
spellingShingle Evaluación de técnicas de Procesamiento de Lenguaje Natural de notas clínicas del EMR para la caracterización de pacientes
Machine Learning
Sepsis
LightGBM
Word2Vec
MIMIC-III
SOFA
Redes Neuronales
NLP
Machine Learning
Sepsis
LightGBM
Word2Vec
MIMIC-III
SOFA
Neural Networks
NLP
title_short Evaluación de técnicas de Procesamiento de Lenguaje Natural de notas clínicas del EMR para la caracterización de pacientes
title_full Evaluación de técnicas de Procesamiento de Lenguaje Natural de notas clínicas del EMR para la caracterización de pacientes
title_fullStr Evaluación de técnicas de Procesamiento de Lenguaje Natural de notas clínicas del EMR para la caracterización de pacientes
title_full_unstemmed Evaluación de técnicas de Procesamiento de Lenguaje Natural de notas clínicas del EMR para la caracterización de pacientes
title_sort Evaluación de técnicas de Procesamiento de Lenguaje Natural de notas clínicas del EMR para la caracterización de pacientes
dc.creator.fl_str_mv Mestizo Valencia, Andrés David
dc.contributor.advisor.none.fl_str_mv Orejuela Ruíz, Vivian Milen
dc.contributor.author.none.fl_str_mv Mestizo Valencia, Andrés David
dc.contributor.other.none.fl_str_mv García, John Anderson
dc.contributor.orcid.spa.fl_str_mv Vivian Milen Orejuela Ruíz [0000-0002-7562-3128]
dc.subject.proposal.spa.fl_str_mv Machine Learning
Sepsis
LightGBM
Word2Vec
MIMIC-III
SOFA
Redes Neuronales
NLP
topic Machine Learning
Sepsis
LightGBM
Word2Vec
MIMIC-III
SOFA
Redes Neuronales
NLP
Machine Learning
Sepsis
LightGBM
Word2Vec
MIMIC-III
SOFA
Neural Networks
NLP
dc.subject.keywords.spa.fl_str_mv Machine Learning
Sepsis
LightGBM
Word2Vec
MIMIC-III
SOFA
Neural Networks
NLP
description ilustraciones, gráficos, tablas
publishDate 2022
dc.date.issued.none.fl_str_mv 2022
dc.date.accessioned.none.fl_str_mv 2023-10-23T21:07:48Z
dc.date.available.none.fl_str_mv 2023-10-23T21:07:48Z
dc.type.spa.fl_str_mv bachelor thesis
dc.type.local.spa.fl_str_mv Tesis/Trabajo de grado - Monografía - Pregrado
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.content.spa.fl_str_mv Text
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/acceptedVersion
format http://purl.org/coar/resource_type/c_7a1f
status_str acceptedVersion
dc.identifier.citation.spa.fl_str_mv Mestizo, Andrés (2022). Evaluación de técnicas de Procesamiento de Lenguaje Natural de notas clínicas del EMR para la caracterización de pacientes. [Tesis de Pregrado]. Unidad Central Del Valle del Cauca
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12993/3687
dc.identifier.instname.spa.fl_str_mv Instname:Unidad Central del Valle del Cauca
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional Unidad Central del Valle del Cauca
dc.identifier.repourl.none.fl_str_mv repourl:https://repositorio.uceva.edu.co/
identifier_str_mv Mestizo, Andrés (2022). Evaluación de técnicas de Procesamiento de Lenguaje Natural de notas clínicas del EMR para la caracterización de pacientes. [Tesis de Pregrado]. Unidad Central Del Valle del Cauca
Instname:Unidad Central del Valle del Cauca
reponame:Repositorio Institucional Unidad Central del Valle del Cauca
repourl:https://repositorio.uceva.edu.co/
url http://hdl.handle.net/20.500.12993/3687
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.references.spa.fl_str_mv 1. Aarsen, T., Nothman, J., Bird, S., & Others. (2022, March 25). NLTK. https://www.nltk.org/index.html
2. Agarwal, N. (2022, November 4). The Ultimate Guide To Different Word Embedding Techniques In NLP. KDnuggets.
3. Anand, R., & Jeffrey David, U. (2011). Mining of massive datasets. Cambridge University Press.
4. Andrade Tepán, E. C. (2013). Estudio de los principales tipos de redes neuronales y las herramientas para su aplicación.
5. Arias, M. (2021). La distancia más corta. El método de los mínimos cuadrados. file:///C:/Users/andre/Downloads/Dialnet-LaDistanciaMasCortaElMetodoDeLosMinimosCuadrados-7878782.pdf
6. Bakarov, A. (2018). A survey of word embeddings evaluation methods. ArXiv Preprint ArXiv:1801.09536.
7. Bhatnagar, A., & Sethi, T. (2021). NLP based predictions in ICU.
8. Bishop, C. M. (1994). Neural networks and their applications. Review of Scientific Instruments, 65(6), 1803–1832. https://doi.org/10.1063/1.1144830
9. Choi, S., Lee, J., Kang, M.-G., Min, H., Chang, Y.-S., & Yoon, S. (2017). Large-scale machine learning of media outlets for understanding public reactions to nation-wide viral infection outbreaks. Methods, 129, 50–59.
10. Christy Evangeline, N., Srinivasan, S., & Suresh, E. (2023). Application of non-contact thermography as a screening modality for Diabetic Foot Syndrome – A real time cross sectional research outcome. Biomedical Signal Processing and Control, 79. https://doi.org/10.1016/j.bspc.2022.104054
11. de Oliveira, B. F. P., Valente, A. S. O., Victorino, M., Ribeiro, E., & Holanda, M. (2022). Analysis of the Influence of Modeling, Data Format and Processing Tool on the Performance of Hadoop-Hive Based Data Warehouse. Journal of Information and Data Management, 13(3).
12. der Maaten, L., & Hinton, G. (2008). Visualizing data using t-SNE. Journal of Machine Learning Research, 9(11).
13. Derczynski, L. (2016). Complementarity, F-score, and NLP Evaluation. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), 261–266. https://aclanthology.org/L16-1040
14. Developers, T. (2022). TensorFlow. Zenodo.
15. Devlin, J., & Chang, M.-W. (2018). Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing.
16. Dpto. Marketing y Comunicación. (2018). Machine Learning, una pieza clave en la transformación de los modelos de negocio. Managment Solutions, 6. https://www.managementsolutions.com/sites/default/files/publicaciones/esp/machine-learning.pdf
17. Fodeh, S. J., Finch, D., Bouayad, L., Luther, S. L., Ling, H., Kerns, R. D., & Brandt, C. (2018). Classifying clinical notes with pain assessment using machine learning. Medical \& Biological Engineering \& Computing, 56(7), 1285–1292.
18. Gao, M., Li, T., & Huang, P. (2019). Text Classification Research Based on Improved Word2vec and CNN. In X. Liu, M. Mrissa, L. Zhang, D. Benslimane, A. Ghose, Z. Wang, A. Bucchiarone, W. Zhang, Y. Zou, & Q. Yu (Eds.), Service-Oriented Computing – ICSOC 2018 Workshops (pp. 126–135). Springer International Publishing.
19. Goh, K. H., Wang, L., Yeow, A. Y. K., Poh, H., Li, K., Yeow, J. J. L., & Tan, G. Y. H. (2021). Artificial intelligence in sepsis early prediction and diagnosis using unstructured data in healthcare. Nature Communications, 12(1), 711.
20. Grefenstette, G. (1999). Tokenization. Syntactic Wordclass Tagging, 117–133.
21. Gupta, S., Chatterjee, S., Sharma, A., Popolizio, M., di Lecce, V., Succi, M., Tremonte, P., Dario, R., & Rathore, V. S. (2023). Determination of Antibiotic Resistance Level in Klebsiella using Machine Learning Models. In Lecture Notes in Networks and Systems (Vol. 447). https://doi.org/10.1007/978-981-19-1607-6_80
22. Herrera, F. (2016). Big Data: Preprocesamiento y calidad de datos. Novática, 237, 17.
23. Hospital Universitario de Puebla. (2018). Presentación Expediente Clínico. http://cmas.siu.buap.mx/portal_pprd/work/sites/hup/resources/LocalContent/247/2/PRESENTACION%20EXPEDIENTE%20CLINICO.pdf
24. IBM. (2022, June 7). Formato JSON (JavaScript Object Notation). IBM Business Automation Workflow. https://www.ibm.com/docs/es/baw/20.x?topic=formats-javascript-object-notation-json-format
25. Jang, B., Kim, I., & Kim, J. W. (2019). Word2vec convolutional neural networks for classification of news articles and tweets. PloS One, 14(8), e0220976.
26. JCGM. (2012). Vocabolario Internacional de Metrología Conceptos fundamentales y generales, y terminos asociados.
27. Jensen, K., Soguero-Ruiz, C., Oyvind Mikalsen, K., Lindsetmo, R.-O., Kouskoumvekaki, I., Girolami, M., Olav Skrovseth, S., & Augestad, K. M. (2017). Analysis of free text in electronic health records for identification of cancer patient trajectories. Scientific Reports, 7, 46226. https://doi.org/10.1038/srep46226
28. Johnson, A., Pollard, T., & Mark, R. (2016). MIMIC-III Clinical Database.
29. José A. Guerrero. (2016, July). El problema de la dimensionalidad. Revista Indice. http://www.revistaindice.com/numero68/p22.pdf
30. Jurafsky, D., & Martin, J. H. (2023). Speech and Language Processing An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition Third Edition draft Summary of Contents. https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf
31. Ke, G., Meng, Q., Finley, T., Wang, T., Chen, W., Ma, W., Ye, Q., & Liu, T.-Y. (2017). Lightgbm: A highly efficient gradient boosting decision tree. Advances in Neural Information Processing Systems, 30.
32. Kumar, V., Recupero, D. R., Riboni, D., & Helaoui, R. (2021). Ensembling Classical Machine Learning and Deep Learning Approaches for Morbidity Identification From Clinical Notes. IEEE Access, 9, 7107–7126. https://doi.org/10.1109/ACCESS.2020.3043221
33. Lahitani, A. R., Permanasari, A. E., & Setiawan, N. A. (2016). Cosine similarity to determine similarity measure: Study case in online essay assessment. 2016 4th International Conference on Cyber and IT Service Management, 1–6. https://doi.org/10.1109/CITSM.2016.7577578
34. Leeson, W., Resnick, A., Alexander, D., & Rovers, J. (2019). Natural language processing (Nlp) in qualitative public health research: a proof of concept study. International Journal of Qualitative Methods, 18, 1609406919887021.
35. Liu, R., Greenstein, J. L., Sarma, S. V, & Winslow, R. L. (2019). Natural language processing of clinical notes for improved early prediction of septic shock in the ICU. 2019 41st Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC), 6103–6108.
36. Luna, J. (2018, February 8). Tipos de aprendizaje automático. SoldAI. https://medium.com/soldai/tipos-de-aprendizaje-autom%C3%A1tico-6413e3c615e2
37. Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. ArXiv Preprint ArXiv:1301.3781.
38. Norse, A., Guirgis, F., Page, L., & DeVos, E. L. (2021, April 15). Updates and Controversies in the Early Management of Sepsis and Septic Shock (Pharmacology CME). Emergency Medicine Practice.
39. Nuthakki, S., Neela, S., Gichoya, J. W., & Purkayastha, S. (2019). Natural language processing of MIMIC-III clinical notes for identifying diagnosis and procedures with neural networks. ArXiv Preprint ArXiv:1912.12397.
40. OMS. (2020, September 8). Llamamiento de la OMS a la acción mundial contra la septicemia, causa de una de cada cinco muertes en el mundo. Comunicados de Prensa.
41. Pennington, J., Socher, R., & Manning, C. D. (2014). Glove: Global vectors for word representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 1532–1543.
42. Peter Zhang, G. (2000). Neural Networks for Classification: A Survey. In APPLICATIONS AND REVIEWS (Vol. 30, Issue 4).
43. Rahutomo, F., Kitasuka, T., & Aritsugi, M. (2012). Semantic cosine similarity. The 7th International Student Conference on Advanced Science and Technology ICAST, 4(1), 1.
44. Řehůřek, R. (2022, December 21). Word2vec embeddings. Gensim.
45. Sampieri, R., Fernández, C., & Baptista, M. del P. (2014). Metodología de la Investigación (6ta ed., Vol. 1). MC Graw Hill Education.
46. Saripalle, R., Runyan, C., & Russell, M. (2019). Using HL7 FHIR to achieve interoperability in patient health record. Journal of Biomedical Informatics, 94, 103188.
47. Scikit Learn. (2023). sklearn.model_selection.StratifiedShuffleSplit. Https://Scikit-Learn.Org/Stable/Modules/Generated/Sklearn.Model_selection.StratifiedShuffleSplit.Html.
48. Silvatt, C., & Ribeirot, B. (2003). The Importance of Stop Word Removal on Recall Values in Text Categorization.
49. Singer, M., Deutschman, C. S., Seymour, C., Shankar-Hari, M., Annane, D., Bauer, M., Bellomo, R., Bernard, G. R., Chiche, J. D., Coopersmith, C. M., Hotchkiss, R. S., Levy, M. M., Marshall, J. C., Martin, G. S., Opal, S. M., Rubenfeld, G. D., Poll, T. Der, Vincent, J. L., & Angus, D. C. (2016). The third international consensus definitions for sepsis and septic shock (sepsis-3). In JAMA - Journal of the American Medical Association (Vol. 315, Issue 8, pp. 801–810). American Medical Association. https://doi.org/10.1001/jama.2016.0287
50. Singer, M., Deutschman, C. S., Seymour, C. W., Shankar-Hari, M., Annane, D., Bauer, M., Bellomo, R., Bernard, G. R., Chiche, J.-D., Coopersmith, C. M., Hotchkiss, R. S., Levy, M. M., Marshall, J. C., Martin, G. S., Opal, S. M., Rubenfeld, G. D., van der Poll, T., Vincent, J.-L., & Angus, D. C. (2016). The Third International Consensus Definitions for Sepsis and Septic Shock (Sepsis-3). JAMA, 315(8), 801–810. https://doi.org/10.1001/jama.2016.0287
51. Toro Beltrán, C. F., & Orejuela Ruiz, V. M. (2022). Anal\’\itica a datos cl\’\inicos de pacientes de sepsis, estructurados bajo el estándar HL7 FHIR (CDA), facilitando la visualización en un dashboard para el diagnóstico oportuno.
52. Van Otten, N. (2023, February 15). Tutorial TF-IDF vs Word2Vec For Text Classification [How To In Python With And Without CNN]. Spot Intelligence.
53. Verspoor, K., & Cohen, K. B. (2013). Natural Language Processing. In Encyclopedia of Systems Biology (pp. 1495–1498). Springer New York. https://doi.org/10.1007/978-1-4419-9863-7_158
54. Yun-tao, Z., Ling, G., & Yong-cheng, W. (2005). An improved TF-IDF approach for text classification. Journal of Zhejiang University-Science A, 6, 49–55.
55. Zhang, X., Chen, Y., Salerno, S., Li, Y., Zhou, L., Zeng, X., & Li, H. (2022). Prediction of severe preeclampsia in machine learning. Medicine in Novel Technology and Devices, 15. https://doi.org/10.1016/j.medntd.2022.100158
56. Zhao, X., Shen, W., Wang, G., & others. (2021). Early prediction of sepsis based on machine learning algorithm. Computational Intelligence and Neuroscience, 2021.
57. Zhou, M., Duan, N., Liu, S., & Shum, H.-Y. (2020). Progress in Neural NLP: Modeling, Learning, and Reasoning. Engineering, 6(3), 275–290. https://doi.org/https://doi.org/10.1016/j.eng.2019.12.014
dc.rights.spa.fl_str_mv Derechos reservados - Unidad Central del Valle del Cauca
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0
dc.rights.license.*.fl_str_mv Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/closedAccess
dc.rights.local.spa.fl_str_mv Cerrado
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_14cb
rights_invalid_str_mv Derechos reservados - Unidad Central del Valle del Cauca
http://creativecommons.org/licenses/by-nc-nd/4.0
Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
Cerrado
http://purl.org/coar/access_right/c_14cb
eu_rights_str_mv closedAccess
dc.format.spa.fl_str_mv PDF
dc.format.extent.spa.fl_str_mv 83 páginas
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.coverage.spatial.spa.fl_str_mv Tuluá, Valle del Cauca, Colombia
dc.coverage.city.spa.fl_str_mv Tuluá
dc.publisher.program.spa.fl_str_mv Ingeniería Electrónica
dc.publisher.faculty.spa.fl_str_mv Facultad de Ingeniería
institution Unidad Central del Valle del Cauca
bitstream.url.fl_str_mv https://repositorio.uceva.edu.co/bitstream/20.500.12993/3687/4/TG-AndresMestizo.pdf.jpg
https://repositorio.uceva.edu.co/bitstream/20.500.12993/3687/5/AnexoTG-Grafica.pdf.jpg
https://repositorio.uceva.edu.co/bitstream/20.500.12993/3687/3/license.txt
https://repositorio.uceva.edu.co/bitstream/20.500.12993/3687/1/TG-AndresMestizo.pdf
https://repositorio.uceva.edu.co/bitstream/20.500.12993/3687/2/AnexoTG-Grafica.pdf
bitstream.checksum.fl_str_mv d30b83118ba95d55c9fbcd729e91242a
71a9593e6f2b42ac7a6cced1f7235d67
59919569caf899aa9ec9da2fa40f116c
c44e1cdbcd410baf615612699e5d3c04
5fa85aaa4f9c9cfc8bd6de1313cb5505
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Unidad Central del Valle del Cauca
repository.mail.fl_str_mv biblioteca@uceva.edu.co
_version_ 1814300552158248960
spelling Orejuela Ruíz, Vivian MilenMestizo Valencia, Andrés DavidGarcía, John AndersonVivian Milen Orejuela Ruíz [0000-0002-7562-3128]Tuluá, Valle del Cauca, ColombiaTuluá2023-10-23T21:07:48Z2023-10-23T21:07:48Z2022Mestizo, Andrés (2022). Evaluación de técnicas de Procesamiento de Lenguaje Natural de notas clínicas del EMR para la caracterización de pacientes. [Tesis de Pregrado]. Unidad Central Del Valle del Caucahttp://hdl.handle.net/20.500.12993/3687Instname:Unidad Central del Valle del Caucareponame:Repositorio Institucional Unidad Central del Valle del Caucarepourl:https://repositorio.uceva.edu.co/ilustraciones, gráficos, tablasLas notas clínicas son un objeto de información difícilmente procesable, debido a su diversidad léxica y semántica, lo que dificulta cualquier investigación relacionada con esta fuente de datos. Sin embargo, el procesamiento de lenguaje natural puede brindar solución a este problema, creando una estructura numérica para las notas clínicas, sin dejar de lado su contexto individual y su significado en conjunto. Una de las técnicas que permite realizar este procedimiento es el algoritmo Word2Vec, que acompañado de una red neuronal convolucional podría realizar una detección de sepsis, apoyado en la fórmula de SOFA (Sequential Organ Failure Assessment) que permite clasificar por gravedad pacientes con síntomas de sepsis. Para lo cual, se filtran y seleccionan los datos bajo diferentes parámetros a partir de diferentes clases por medio del lenguaje de programación Python con el fin de procesar la información estructurada y no estructurada de la base de datos MIMIC-III para comprobar la capacidad de los algoritmos y su eficiencia en la tarea propuesta. Finalmente se observa que el algoritmo LigthGBM procesa los datos estructurados con una precisión aproximada de 86% y que el algoritmo completo (Word2Vec + CNN) puede observar y modelar el comportamiento de los pacientes descrito a través de las notas clínicas con un 89.45% de precisión.1 Introducción e información general / 1.1 El problema / 1.1.1 Descripción / 1.2 Formulación / 1.3 Justificación / 1.4 Objetivos / 1.4.1 General / 1.4.2 Específicos / 1.5 Alcance / 2 Marco de referencia / 2.1 Marco teórico / 2.1.1 Machine Learning en la salud / 2.1.2 NLP asociado a notas clínicas / 2.2 Marco conceptual / 2.2.1 Notas clínicas / 2.2.2 Machine Learning / 2.2.3 JSON / 2.2.4 NLP / 2.2.5 SOFA (Sequential Organ Failure Assessment) / 2.3 Estado del arte / 3 Metodología de investigación / 3.1 Tipo de Investigación:/ 3.2 Metodología:/ 3.3 Etapas de la investigación / 3.3.1 Inicio / 3.3.2 Selección de la base de datos / 3.3.3 Visualización / 3.3.4 Estructuración / 3.3.5 Preprocesamiento de texto libre / 3.3.5.1 Cleaning Data / 3.3.5.2 Tokenization / 3.3.5.3 Stopwords Removal / 3.3.5.4 Lemmatize / 3.3.5.5 Lowercase / 3.3.5.6 Incrustaciones / 3.3.5.6.1 Word2Vec / 3.3.5.6.2 GloVe / 3.3.5.6.3 TF-IDF / 3.3.5.6.4 BERT / 3.3.5.7 Redes neuronales / 4 Esquematización de datos clínicos a partir de la estructuración y creación del CDA master y el CDA interno para el planteamiento del problema de NLP / 4.1 Análisis / 4.2 Selección de la base de datos / 4.3 Extracción de los datos / 4.4 Depuración y etiquetado / 4.4.1 Filtrado / 4.4.2 Visualización de flujos / 4.4.3 Etiquetado / 4.5 Creación del CDA Master / 4.6 Creación del CDA Interno / 4.7 Resumen numérico de algunos datos / 4.8 Dataframe / 4.8.1 Preprocesamiento de datos estructurados / 4.8.2 Creación del Dataframe / 4.8.3 Modificaciones del Dataframe / 4.8.4 Unos del Dataframe / 4.8.5 Imputación del Dataframe / 4.8.6 División del dataframe en Train and Test / 4.8.7 Modelamiento / 5 Preprocesar las notas clínicas para tokenizar y armonizar las características clínicas / 5.1 Limpieza de los datos / 5.2 Tokenización / 5.3 Remove Stop-Words and punctuation / 5.4 Lemmatize / 5.5 Lowercase / 5.6 Etiquetado de las notas clínicas / 5.7 Ejemplo de preprocesamiento / 6 Extraer los datos de las notas clínicas del EMR utilizando redes neuronales de tipo NLP / 6.1 Balance / 6.2 Selección / 6.3 Incrustación / 6.4 Red neuronal / 7 Evaluar el rendimiento de las técnicas de NLP para la caracterización de pacientes / 7.1 Datos estructurados / 7.1.1 Confusion Matrix / 7.1.1.1 Registros totales / 7.1.2 Classification Report / 7.2 Datos no estructurados / 7.2.1 Word2Vec / 7.2.2 CNN / 8 Conclusiones / 9 Propuestas para desarrollos posteriores / 10 ReferenciasIngeniero (a) electrónicoPregradoClinical notes are a scarcely processable information object due to their lexical and semantic diversity, which complicates any research related to this data source. However, natural language processing can offer a solution to this problem by creating a numerical structure for clinical notes while preserving their individual context and overall meaning. One of the techniques that enables this procedure is the Word2Vec algorithm, which, when combined with a convolutional neural network, can detect sepsis, relying on the Sequential Organ Failure Assessment (SOFA) formula to classify patients with sepsis symptoms by severity. To achieve this, data is filtered and selected under different parameters from various classes using the Python programming language to process structured and unstructured information from the MIMIC-III database, testing the algorithms' capabilities and efficiency in the proposed task. Finally, it is observed that the LightGBM algorithm processes structured data with an approximate accuracy of 86%, and the complete algorithm (Word2Vec + CNN) can analyze and model patient behaviour described through clinical notes with an accuracy of 89.45%.PDF83 páginasapplication/pdfspaDerechos reservados - Unidad Central del Valle del Caucahttp://creativecommons.org/licenses/by-nc-nd/4.0Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)info:eu-repo/semantics/closedAccessCerradohttp://purl.org/coar/access_right/c_14cbEvaluación de técnicas de Procesamiento de Lenguaje Natural de notas clínicas del EMR para la caracterización de pacientesAssessment of Natural Language Processing techniques for characterizing patients using EMR clinical notes.bachelor thesisTesis/Trabajo de grado - Monografía - Pregradohttp://purl.org/coar/resource_type/c_7a1fTextinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionIngeniería ElectrónicaFacultad de IngenieríaMachine LearningSepsisLightGBMWord2VecMIMIC-IIISOFARedes NeuronalesNLPMachine LearningSepsisLightGBMWord2VecMIMIC-IIISOFANeural NetworksNLP1. Aarsen, T., Nothman, J., Bird, S., & Others. (2022, March 25). NLTK. https://www.nltk.org/index.html2. Agarwal, N. (2022, November 4). The Ultimate Guide To Different Word Embedding Techniques In NLP. KDnuggets.3. Anand, R., & Jeffrey David, U. (2011). Mining of massive datasets. Cambridge University Press.4. Andrade Tepán, E. C. (2013). Estudio de los principales tipos de redes neuronales y las herramientas para su aplicación.5. Arias, M. (2021). La distancia más corta. El método de los mínimos cuadrados. file:///C:/Users/andre/Downloads/Dialnet-LaDistanciaMasCortaElMetodoDeLosMinimosCuadrados-7878782.pdf6. Bakarov, A. (2018). A survey of word embeddings evaluation methods. ArXiv Preprint ArXiv:1801.09536.7. Bhatnagar, A., & Sethi, T. (2021). NLP based predictions in ICU.8. Bishop, C. M. (1994). Neural networks and their applications. Review of Scientific Instruments, 65(6), 1803–1832. https://doi.org/10.1063/1.11448309. Choi, S., Lee, J., Kang, M.-G., Min, H., Chang, Y.-S., & Yoon, S. (2017). Large-scale machine learning of media outlets for understanding public reactions to nation-wide viral infection outbreaks. Methods, 129, 50–59.10. Christy Evangeline, N., Srinivasan, S., & Suresh, E. (2023). Application of non-contact thermography as a screening modality for Diabetic Foot Syndrome – A real time cross sectional research outcome. Biomedical Signal Processing and Control, 79. https://doi.org/10.1016/j.bspc.2022.10405411. de Oliveira, B. F. P., Valente, A. S. O., Victorino, M., Ribeiro, E., & Holanda, M. (2022). Analysis of the Influence of Modeling, Data Format and Processing Tool on the Performance of Hadoop-Hive Based Data Warehouse. Journal of Information and Data Management, 13(3).12. der Maaten, L., & Hinton, G. (2008). Visualizing data using t-SNE. Journal of Machine Learning Research, 9(11).13. Derczynski, L. (2016). Complementarity, F-score, and NLP Evaluation. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), 261–266. https://aclanthology.org/L16-104014. Developers, T. (2022). TensorFlow. Zenodo.15. Devlin, J., & Chang, M.-W. (2018). Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing.16. Dpto. Marketing y Comunicación. (2018). Machine Learning, una pieza clave en la transformación de los modelos de negocio. Managment Solutions, 6. https://www.managementsolutions.com/sites/default/files/publicaciones/esp/machine-learning.pdf17. Fodeh, S. J., Finch, D., Bouayad, L., Luther, S. L., Ling, H., Kerns, R. D., & Brandt, C. (2018). Classifying clinical notes with pain assessment using machine learning. Medical \& Biological Engineering \& Computing, 56(7), 1285–1292.18. Gao, M., Li, T., & Huang, P. (2019). Text Classification Research Based on Improved Word2vec and CNN. In X. Liu, M. Mrissa, L. Zhang, D. Benslimane, A. Ghose, Z. Wang, A. Bucchiarone, W. Zhang, Y. Zou, & Q. Yu (Eds.), Service-Oriented Computing – ICSOC 2018 Workshops (pp. 126–135). Springer International Publishing.19. Goh, K. H., Wang, L., Yeow, A. Y. K., Poh, H., Li, K., Yeow, J. J. L., & Tan, G. Y. H. (2021). Artificial intelligence in sepsis early prediction and diagnosis using unstructured data in healthcare. Nature Communications, 12(1), 711.20. Grefenstette, G. (1999). Tokenization. Syntactic Wordclass Tagging, 117–133.21. Gupta, S., Chatterjee, S., Sharma, A., Popolizio, M., di Lecce, V., Succi, M., Tremonte, P., Dario, R., & Rathore, V. S. (2023). Determination of Antibiotic Resistance Level in Klebsiella using Machine Learning Models. In Lecture Notes in Networks and Systems (Vol. 447). https://doi.org/10.1007/978-981-19-1607-6_8022. Herrera, F. (2016). Big Data: Preprocesamiento y calidad de datos. Novática, 237, 17.23. Hospital Universitario de Puebla. (2018). Presentación Expediente Clínico. http://cmas.siu.buap.mx/portal_pprd/work/sites/hup/resources/LocalContent/247/2/PRESENTACION%20EXPEDIENTE%20CLINICO.pdf24. IBM. (2022, June 7). Formato JSON (JavaScript Object Notation). IBM Business Automation Workflow. https://www.ibm.com/docs/es/baw/20.x?topic=formats-javascript-object-notation-json-format25. Jang, B., Kim, I., & Kim, J. W. (2019). Word2vec convolutional neural networks for classification of news articles and tweets. PloS One, 14(8), e0220976.26. JCGM. (2012). Vocabolario Internacional de Metrología Conceptos fundamentales y generales, y terminos asociados.27. Jensen, K., Soguero-Ruiz, C., Oyvind Mikalsen, K., Lindsetmo, R.-O., Kouskoumvekaki, I., Girolami, M., Olav Skrovseth, S., & Augestad, K. M. (2017). Analysis of free text in electronic health records for identification of cancer patient trajectories. Scientific Reports, 7, 46226. https://doi.org/10.1038/srep4622628. Johnson, A., Pollard, T., & Mark, R. (2016). MIMIC-III Clinical Database.29. José A. Guerrero. (2016, July). El problema de la dimensionalidad. Revista Indice. http://www.revistaindice.com/numero68/p22.pdf30. Jurafsky, D., & Martin, J. H. (2023). Speech and Language Processing An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition Third Edition draft Summary of Contents. https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf31. Ke, G., Meng, Q., Finley, T., Wang, T., Chen, W., Ma, W., Ye, Q., & Liu, T.-Y. (2017). Lightgbm: A highly efficient gradient boosting decision tree. Advances in Neural Information Processing Systems, 30.32. Kumar, V., Recupero, D. R., Riboni, D., & Helaoui, R. (2021). Ensembling Classical Machine Learning and Deep Learning Approaches for Morbidity Identification From Clinical Notes. IEEE Access, 9, 7107–7126. https://doi.org/10.1109/ACCESS.2020.304322133. Lahitani, A. R., Permanasari, A. E., & Setiawan, N. A. (2016). Cosine similarity to determine similarity measure: Study case in online essay assessment. 2016 4th International Conference on Cyber and IT Service Management, 1–6. https://doi.org/10.1109/CITSM.2016.757757834. Leeson, W., Resnick, A., Alexander, D., & Rovers, J. (2019). Natural language processing (Nlp) in qualitative public health research: a proof of concept study. International Journal of Qualitative Methods, 18, 1609406919887021.35. Liu, R., Greenstein, J. L., Sarma, S. V, & Winslow, R. L. (2019). Natural language processing of clinical notes for improved early prediction of septic shock in the ICU. 2019 41st Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC), 6103–6108.36. Luna, J. (2018, February 8). Tipos de aprendizaje automático. SoldAI. https://medium.com/soldai/tipos-de-aprendizaje-autom%C3%A1tico-6413e3c615e237. Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. ArXiv Preprint ArXiv:1301.3781.38. Norse, A., Guirgis, F., Page, L., & DeVos, E. L. (2021, April 15). Updates and Controversies in the Early Management of Sepsis and Septic Shock (Pharmacology CME). Emergency Medicine Practice.39. Nuthakki, S., Neela, S., Gichoya, J. W., & Purkayastha, S. (2019). Natural language processing of MIMIC-III clinical notes for identifying diagnosis and procedures with neural networks. ArXiv Preprint ArXiv:1912.12397.40. OMS. (2020, September 8). Llamamiento de la OMS a la acción mundial contra la septicemia, causa de una de cada cinco muertes en el mundo. Comunicados de Prensa.41. Pennington, J., Socher, R., & Manning, C. D. (2014). Glove: Global vectors for word representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 1532–1543.42. Peter Zhang, G. (2000). Neural Networks for Classification: A Survey. In APPLICATIONS AND REVIEWS (Vol. 30, Issue 4).43. Rahutomo, F., Kitasuka, T., & Aritsugi, M. (2012). Semantic cosine similarity. The 7th International Student Conference on Advanced Science and Technology ICAST, 4(1), 1.44. Řehůřek, R. (2022, December 21). Word2vec embeddings. Gensim.45. Sampieri, R., Fernández, C., & Baptista, M. del P. (2014). Metodología de la Investigación (6ta ed., Vol. 1). MC Graw Hill Education.46. Saripalle, R., Runyan, C., & Russell, M. (2019). Using HL7 FHIR to achieve interoperability in patient health record. Journal of Biomedical Informatics, 94, 103188.47. Scikit Learn. (2023). sklearn.model_selection.StratifiedShuffleSplit. Https://Scikit-Learn.Org/Stable/Modules/Generated/Sklearn.Model_selection.StratifiedShuffleSplit.Html.48. Silvatt, C., & Ribeirot, B. (2003). The Importance of Stop Word Removal on Recall Values in Text Categorization.49. Singer, M., Deutschman, C. S., Seymour, C., Shankar-Hari, M., Annane, D., Bauer, M., Bellomo, R., Bernard, G. R., Chiche, J. D., Coopersmith, C. M., Hotchkiss, R. S., Levy, M. M., Marshall, J. C., Martin, G. S., Opal, S. M., Rubenfeld, G. D., Poll, T. Der, Vincent, J. L., & Angus, D. C. (2016). The third international consensus definitions for sepsis and septic shock (sepsis-3). In JAMA - Journal of the American Medical Association (Vol. 315, Issue 8, pp. 801–810). American Medical Association. https://doi.org/10.1001/jama.2016.028750. Singer, M., Deutschman, C. S., Seymour, C. W., Shankar-Hari, M., Annane, D., Bauer, M., Bellomo, R., Bernard, G. R., Chiche, J.-D., Coopersmith, C. M., Hotchkiss, R. S., Levy, M. M., Marshall, J. C., Martin, G. S., Opal, S. M., Rubenfeld, G. D., van der Poll, T., Vincent, J.-L., & Angus, D. C. (2016). The Third International Consensus Definitions for Sepsis and Septic Shock (Sepsis-3). JAMA, 315(8), 801–810. https://doi.org/10.1001/jama.2016.028751. Toro Beltrán, C. F., & Orejuela Ruiz, V. M. (2022). Anal\’\itica a datos cl\’\inicos de pacientes de sepsis, estructurados bajo el estándar HL7 FHIR (CDA), facilitando la visualización en un dashboard para el diagnóstico oportuno.52. Van Otten, N. (2023, February 15). Tutorial TF-IDF vs Word2Vec For Text Classification [How To In Python With And Without CNN]. Spot Intelligence.53. Verspoor, K., & Cohen, K. B. (2013). Natural Language Processing. In Encyclopedia of Systems Biology (pp. 1495–1498). Springer New York. https://doi.org/10.1007/978-1-4419-9863-7_15854. Yun-tao, Z., Ling, G., & Yong-cheng, W. (2005). An improved TF-IDF approach for text classification. Journal of Zhejiang University-Science A, 6, 49–55.55. Zhang, X., Chen, Y., Salerno, S., Li, Y., Zhou, L., Zeng, X., & Li, H. (2022). Prediction of severe preeclampsia in machine learning. Medicine in Novel Technology and Devices, 15. https://doi.org/10.1016/j.medntd.2022.10015856. Zhao, X., Shen, W., Wang, G., & others. (2021). Early prediction of sepsis based on machine learning algorithm. Computational Intelligence and Neuroscience, 2021.57. Zhou, M., Duan, N., Liu, S., & Shum, H.-Y. (2020). Progress in Neural NLP: Modeling, Learning, and Reasoning. Engineering, 6(3), 275–290. https://doi.org/https://doi.org/10.1016/j.eng.2019.12.014Público generalPregradoEspecializaciónTHUMBNAILTG-AndresMestizo.pdf.jpgTG-AndresMestizo.pdf.jpgIM Thumbnailimage/jpeg4425https://repositorio.uceva.edu.co/bitstream/20.500.12993/3687/4/TG-AndresMestizo.pdf.jpgd30b83118ba95d55c9fbcd729e91242aMD54open accessAnexoTG-Grafica.pdf.jpgAnexoTG-Grafica.pdf.jpgIM Thumbnailimage/jpeg16501https://repositorio.uceva.edu.co/bitstream/20.500.12993/3687/5/AnexoTG-Grafica.pdf.jpg71a9593e6f2b42ac7a6cced1f7235d67MD55open accessLICENSElicense.txtlicense.txttext/plain; charset=utf-82219https://repositorio.uceva.edu.co/bitstream/20.500.12993/3687/3/license.txt59919569caf899aa9ec9da2fa40f116cMD53open accessORIGINALTG-AndresMestizo.pdfTG-AndresMestizo.pdfTrabajo de grado pregradoapplication/pdf5578896https://repositorio.uceva.edu.co/bitstream/20.500.12993/3687/1/TG-AndresMestizo.pdfc44e1cdbcd410baf615612699e5d3c04MD51metadata only accessAnexoTG-Grafica.pdfAnexoTG-Grafica.pdfAnexos trabajo de grado pregradoapplication/pdf38046https://repositorio.uceva.edu.co/bitstream/20.500.12993/3687/2/AnexoTG-Grafica.pdf5fa85aaa4f9c9cfc8bd6de1313cb5505MD52metadata only access20.500.12993/3687oai:repositorio.uceva.edu.co:20.500.12993/36872023-10-24 03:00:21.145metadata only accessRepositorio Institucional Unidad Central del Valle del Caucabiblioteca@uceva.edu.coTWFuaWZpZXN0byBtaSB2b2x1bnRhZCBkZSBhdXRvcml6YXIgYSBsYSBVbmlkYWQgQ2VudHJhbCBkZWwgVmFsbGUgZGVsIENhdWNhLCBsYQpyZXByb2R1Y2Npw7NuIHkgY29tdW5pY2FjacOzbiBww7pibGljYSBpbmNsdWlkYSBsYSBwdWVzdGEgYSBkaXNwb3NpY2nDs24gZGUgbGEgb2JyYQplbiBtZWRpb3MgZGlnaXRhbGVzLCBoYWNpZW5kbyB1c28gZGUgbG9zIGRlcmVjaG9zIHBhdHJpbW9uaWFsZXMgY29uc2FncmFkb3MgZW4KZWwgYXJ0w61jdWxvIDcyIGRlIGxhIExleSAyMyBkZSAxOTgyLCBwcm9kdWN0byBkZSBtaSBhY3RpdmlkYWQgYWNhZMOpbWljYQppbnZlc3RpZ2F0aXZhIGVuIGxhIFVuaWRhZCBDZW50cmFsIGRlbCBWYWxsZSBkZWwgQ2F1Y2EuIEVuIGNvbnNlY3VlbmNpYSwgbGEKSW5zdGl0dWNpw7NuIGFjYWTDqW1pY2EsIHF1ZWRhIGZhY3VsdGFkYSBwYXJhIGRhciBhIGNvbm9jZXIgbGEgb2JyYSBwb3IgZGl2ZXJzb3MKbWVkaW9zLCBlbiBzdXMgYWN0aXZpZGFkZXMgZGUgaW52ZXN0aWdhY2nDs24sIGRvY2VuY2lhIHkgcHVibGljYWNpw7NuLiBMYQphdXRvcml6YWNpw7NuIG90b3JnYWRhIHNlIGFqdXN0YSBhIGxvIHF1ZSBlc3RhYmxlY2UgbGEgTGV5IDIzIGRlIDE5ODIuIENvbiB0b2RvLAplbiBtaSBjb25kaWNpw7NuIGRlIGF1dG9yIG1lIHJlc2Vydm8gbG9zIGRlcmVjaG9zIG1vcmFsZXMgZGUgbGEgb2JyYSBhbnRlcwpjaXRhZGEgY29uIGFycmVnbG8gYWwgYXJ0w61jdWxvIDMwIGRlIGxhIExleSAyMyBkZSAxOTgyLiBFbiBjb25jb3JkYW5jaWEgc3VzY3JpYm8KZXN0ZSBkb2N1bWVudG8geSBoYWdvIGVudHJlZ2EgZGVsIGVqZW1wbGFyIHJlc3BlY3Rpdm8geSBkZSBzdXMgYW5leG9zIGRlbCBzZXIgZWwKY2FzbywgZW4gZm9ybWF0byBkaWdpdGFsIG8gZWxlY3Ryw7NuaWNvIChDRC1ST00gbyBEVkQpIHkgYXV0b3Jpem8gYSBsYSBVQ0VWQSwKcGFyYSBxdWUgZW4gbG9zIHTDqXJtaW5vcyBlc3RhYmxlY2lkb3MgZW4gbGEgTGV5IDIzIGRlIDE5ODIsIExleSA0NCBkZSAxOTkzLCB5CmRlbcOhcyBub3JtYXMgZ2VuZXJhbGVzIHNvYnJlIGxhIG1hdGVyaWEsIHV0aWxpY2UgeSB1c2UgZW4gdG9kYXMgc3VzIGZvcm1hcywgbGEKb2JyYSBtZWRpYW50ZSByZXByb2R1Y2Npw7NuLCBjb211bmljYWNpw7NuIHDDumJsaWNhLCB0cmFuc2Zvcm1hY2nDs24gZGUgZm9ybWF0byB5CmRpc3RyaWJ1Y2nDs24gKHkgZGVtw6FzIGFjdGl2aWRhZGVzIHF1ZSBubyB0ZW5nYW4gw6FuaW1vIGRlIGx1Y3JvKSBlbiB2aXJ0dWQgZGUgbG9zCmRlcmVjaG9zIHBhdHJpbW9uaWFsZXMgcXVlIG1lIGNvcnJlc3BvbmRlbiBjb21vIGNyZWFkb3IgZGUgbGEgb2JyYSBvYmpldG8gZGVsCnByZXNlbnRlIGRvY3VtZW50by4gUEFSw4FHUkFGTzogTGEgcHJlc2VudGUgYXV0b3JpemFjacOzbiBzZSBoYWNlIGV4dGVuc2l2YSBubwpzw7NsbyBhIGxhcyBmYWN1bHRhZGVzIHkgZGVyZWNob3MgZGUgdXNvIHNvYnJlIGxhIG9icmEgZW4gZm9ybWF0byBvIHNvcG9ydGUKbWF0ZXJpYWwsIHNpbm8gdGFtYmnDqW4gcGFyYSBmb3JtYXRvIHZpcnR1YWwsIGVsZWN0csOzbmljbywgZGlnaXRhbCwgw7NwdGljbywgdXNvcwplbiByZWQsIGludGVybmV0LCBleHRyYW5ldCwgaW50cmFuZXQsIGV0Yy4sIHkgZW4gZ2VuZXJhbCBwYXJhIGN1YWxxdWllciBmb3JtYXRvCmNvbm9jaWRvIG8gcG9yIGNvbm9jZXIuCgpFTCBBVVRPUiAtIEVTVFVESUFOVEVTLCBtYW5pZmllc3RhIHF1ZSBsYSBvYnJhIG9iamV0byBkZSBsYSBwcmVzZW50ZQphdXRvcml6YWNpw7NuIGVzIG9yaWdpbmFsLCBkZSBzdSBleGNsdXNpdmEgYXV0b3LDrWEgeSBsYSByZWFsaXrDsyBzaW4gdmlvbGFyIG8KdXN1cnBhciBkZXJlY2hvcyBkZSBhdXRvciBkZSB0ZXJjZXJvcy4gUEFSw4FHUkFGTzogRW4gY2FzbyBkZSBwcmVzZW50YXJzZQpjdWFscXVpZXIgcmVjbGFtYWNpw7NuIG8gYWNjacOzbiBwb3IgcGFydGUgZGUgdW4gdGVyY2VybyBlbiBjdWFudG8gYSBsb3MgZGVyZWNob3MKZGUgYXV0b3Igc29icmUgbGEgb2JyYSBlbiBjdWVzdGnDs24sIEVMIEVTVFVESUFOVEUgLSBBVVRPUiwgYXN1bWlyw6EgdG9kYSBsYQpyZXNwb25zYWJpbGlkYWQsIHkgc2FsZHLDoSBlbiBkZWZlbnNhIGRlIGxvcyBkZXJlY2hvcyBhcXXDrSBhdXRvcml6YWRvczsgcGFyYQp0b2RvcyBsb3MgZWZlY3RvcyBsYSBVbml2ZXJzaWRhZCBhY3TDumEgY29tbyB1biB0ZXJjZXJvIGRlIGJ1ZW5hIGZlLgo=