Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las pruebas Saber 11 (2015) y simultáneamente el desempeño obtenido en las pruebas Saber Pro (2020) en Colombia

Este proyecto contribuye contundentemente, mediante herramientas de análisis exploratorio y de información, en la búsqueda de factores determinantes que influyen en el cumplimiento de objetivos trazados en los procesos empresariales a través de la Minería de Datos. Con ello se busca optimizar de man...

Full description

Autores:
Salamanca Martínez, César David
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2022
Institución:
Universidad de Ibagué
Repositorio:
Repositorio Universidad de Ibagué
Idioma:
spa
OAI Identifier:
oai:repositorio.unibague.edu.co:20.500.12313/3803
Acceso en línea:
https://hdl.handle.net/20.500.12313/3803
Palabra clave:
Pruebas saber 11 (2015-2020) -- Minería de datos -- Colombia
Minería de Datos
Python
Clusterización
Arboles de Decisión
Pruebas Saber
Data Mining
Python
Clustering
Decision Trees
Saber Tests
Rights
openAccess
License
http://purl.org/coar/access_right/c_abf2
id UNIBAGUE2_9e0fd14f2214de3b9353f2722ff21844
oai_identifier_str oai:repositorio.unibague.edu.co:20.500.12313/3803
network_acronym_str UNIBAGUE2
network_name_str Repositorio Universidad de Ibagué
repository_id_str
dc.title.spa.fl_str_mv Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las pruebas Saber 11 (2015) y simultáneamente el desempeño obtenido en las pruebas Saber Pro (2020) en Colombia
title Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las pruebas Saber 11 (2015) y simultáneamente el desempeño obtenido en las pruebas Saber Pro (2020) en Colombia
spellingShingle Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las pruebas Saber 11 (2015) y simultáneamente el desempeño obtenido en las pruebas Saber Pro (2020) en Colombia
Pruebas saber 11 (2015-2020) -- Minería de datos -- Colombia
Minería de Datos
Python
Clusterización
Arboles de Decisión
Pruebas Saber
Data Mining
Python
Clustering
Decision Trees
Saber Tests
title_short Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las pruebas Saber 11 (2015) y simultáneamente el desempeño obtenido en las pruebas Saber Pro (2020) en Colombia
title_full Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las pruebas Saber 11 (2015) y simultáneamente el desempeño obtenido en las pruebas Saber Pro (2020) en Colombia
title_fullStr Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las pruebas Saber 11 (2015) y simultáneamente el desempeño obtenido en las pruebas Saber Pro (2020) en Colombia
title_full_unstemmed Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las pruebas Saber 11 (2015) y simultáneamente el desempeño obtenido en las pruebas Saber Pro (2020) en Colombia
title_sort Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las pruebas Saber 11 (2015) y simultáneamente el desempeño obtenido en las pruebas Saber Pro (2020) en Colombia
dc.creator.fl_str_mv Salamanca Martínez, César David
dc.contributor.advisor.none.fl_str_mv Carvajal Beltran, Jimmy Alexander
dc.contributor.author.none.fl_str_mv Salamanca Martínez, César David
dc.subject.armarc.none.fl_str_mv Pruebas saber 11 (2015-2020) -- Minería de datos -- Colombia
topic Pruebas saber 11 (2015-2020) -- Minería de datos -- Colombia
Minería de Datos
Python
Clusterización
Arboles de Decisión
Pruebas Saber
Data Mining
Python
Clustering
Decision Trees
Saber Tests
dc.subject.proposal.spa.fl_str_mv Minería de Datos
Python
Clusterización
Arboles de Decisión
Pruebas Saber
dc.subject.proposal.eng.fl_str_mv Data Mining
Python
Clustering
Decision Trees
Saber Tests
description Este proyecto contribuye contundentemente, mediante herramientas de análisis exploratorio y de información, en la búsqueda de factores determinantes que influyen en el cumplimiento de objetivos trazados en los procesos empresariales a través de la Minería de Datos. Con ello se busca optimizar de manera clara y concisa todo tipo de patrones, comportamientos y/o correlaciones que pueden afectar su objetivo final. Así las cosas, para este proyecto, la técnica de Minería de Datos se desarrolla a través de un software generado en lenguaje de programación Python mediante el cual se manipulan bases de datos, para este caso “Pruebas Saber”, las cuales fueron depuradas y analizadas, ejecutando algoritmos de Clusterización y Árboles de decisión que permitieron el descubrimiento de patrones y anomalías generando conclusiones que permiten fortalecer los procesos en aras de desaparecer sus debilidades y otorgando herramientas para el desarrollo de estrategias en el mejoramiento de los niveles productivos en los individuos.
publishDate 2022
dc.date.issued.none.fl_str_mv 2022
dc.date.accessioned.none.fl_str_mv 2023-08-31T16:59:08Z
dc.date.available.none.fl_str_mv 2023-08-31T16:59:08Z
dc.type.none.fl_str_mv Trabajo de grado - Pregrado
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.content.none.fl_str_mv Text
dc.type.driver.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.redcol.none.fl_str_mv http://purl.org/redcol/resource_type/TP
dc.type.version.none.fl_str_mv info:eu-repo/semantics/acceptedVersion
format http://purl.org/coar/resource_type/c_7a1f
status_str acceptedVersion
dc.identifier.citation.none.fl_str_mv Salamanca Martínez, C.D. (2022). Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las Pruebas Saber 11 (2015) y simúltaneamente el desempeño obtenido en las Pruebas Saber Pro (2020) en Colombia. [Trabajo de grado. Universidad de Ibagué].
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/20.500.12313/3803
identifier_str_mv Salamanca Martínez, C.D. (2022). Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las Pruebas Saber 11 (2015) y simúltaneamente el desempeño obtenido en las Pruebas Saber Pro (2020) en Colombia. [Trabajo de grado. Universidad de Ibagué].
url https://hdl.handle.net/20.500.12313/3803
dc.language.iso.none.fl_str_mv spa
language spa
dc.relation.references.none.fl_str_mv Education, I. C. (10 de Septiembre de 2021). ETL (Extract, Transform, Load). Obtenido de https://www.ibm.com/cloud/learn/etl#toc-etl-and-ot-NiTFjp1v
Fernandez, R. (21 de Abril de 2020). ¿Qué es el Análisis Exploratorio de Datos o EDA? Obtenido de https://unipython.com/que-es-el-analisis-exploratorio-de-datos/
Geard, G. (12 de Mayo de 2021). Beneficios de un buen desempeño en las pruebas Saber Pro. Obtenido de https://grupogeard.com/co/blog/icfes-saber/saber-pro/beneficios desempeno-pruebas-saber pro/#:%7E:text=Este%20busca%20evaluar%20el%20nivel,revisar%20el%20nivel %20de%20preparaci%C3%B3n.
I.C.F.E.S. (2018). Documentación del examen Saber PRO. Obtenido de Icfes: https://www.icfes.gov.co/documents/20143/518352/Documentacion%20saber%20p ro.pdf
Portafolio. (5 de Diciembre de 2021). Portafolio.co. Obtenido de Solo 19% de los estudiantes tiene buenos resultados en Saber 11: https://www.portafolio.co/economia/icfes-solo-19-de-los-estudiantes-tiene-buenos resultados-en-saber-11-559325
Pruebas Saber, M. (2015). mineducacion. Obtenido de https://www.mineducacion.gov.co/1621/w3-article 244735.html#:%7E:text=Pruebas%20Saber%2011%C2%B0&text=Comprobar%20 el%20grado%20de%20desarrollo,de%20su%20proyecto%20de%20vida
Semana. (5 de Marzo de 2022). El 91,8 % de los abusos sexuales en Colombia pertenecen a mujeres. Obtenido de Semana.com Ultimas Noticias de Colombia y el Mundo: https://www.semana.com/nacion/articulo/el-918-de-los-abusos-sexuales-en colombia-pertenecen-a-mujeres/202212/
Software, C. (19 de Septiembre de 2021). Arboles de decisiones en la minería de datos. Obtenido de https://conectasoftware.com/analytics/arboles-de-decisiones-en-la mineria-de-datos
Unir, V. (18 de Febrero de 2021). Gráficos estadísticos: tipos e importancia en la comunicación de datos. Obtenido de https://www.unir.net/marketing comunicacion/revista/graficos estadisticos/#:%7E:text=Los%20gr%C3%A1ficos%20estad%C3%ADsticos%20son %20potentes,la%20evoluci%C3%B3n%20de%20distintas%20variables.
dc.rights.accessrights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.none.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.none.fl_str_mv Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.uri.none.fl_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://purl.org/coar/access_right/c_abf2
Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.format.extent.none.fl_str_mv 92 páginas
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Ibagué
dc.publisher.faculty.none.fl_str_mv Ingeniería
dc.publisher.place.none.fl_str_mv Ibagué
dc.publisher.program.none.fl_str_mv Ingenieria de Sistemas
publisher.none.fl_str_mv Universidad de Ibagué
institution Universidad de Ibagué
bitstream.url.fl_str_mv https://repositorio.unibague.edu.co/bitstreams/53178857-616a-490b-8c65-ab4ea44a0697/download
https://repositorio.unibague.edu.co/bitstreams/4e5179fe-8e53-4c42-9650-89d9558b8676/download
https://repositorio.unibague.edu.co/bitstreams/4fda3e43-d196-44d5-88f2-28ec26e6027e/download
https://repositorio.unibague.edu.co/bitstreams/ee68e045-db12-4a55-960f-20cdf800e7bb/download
https://repositorio.unibague.edu.co/bitstreams/d4d32102-bda8-4109-97f9-4e1c1ed00a3e/download
https://repositorio.unibague.edu.co/bitstreams/b16ebea4-0037-43ee-b02c-f102eadbfdbf/download
https://repositorio.unibague.edu.co/bitstreams/1aa31e10-4bef-4cfe-b01e-08ccd05e85eb/download
https://repositorio.unibague.edu.co/bitstreams/e6ff19e4-f1f7-4f3f-9027-f1f867561cbe/download
bitstream.checksum.fl_str_mv f7f76545c3223272e669437d12ba70d9
a562673324f840fb1ef6e60e050323c3
88b9d540e0a5d1a400f6f42857e6a9af
2fa3e590786b9c0f3ceba1b9656b7ac3
da0b973f5ff147d5a8f003e78c4ccdfa
4270d9ba940afcb78dc606897a8fd38b
90223ee7049e95168377187b4a946d9d
d36aea4b286853182838d2956cc0717e
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad de Ibagué
repository.mail.fl_str_mv bdigital@metabiblioteca.com
_version_ 1814204087502110720
spelling Carvajal Beltran, Jimmy Alexanderdf7f0932-fc7a-4158-aa4e-3596be7d04dc-1Salamanca Martínez, César Davidc0dedbb9-61af-4932-9bc8-76914711e109-12023-08-31T16:59:08Z2023-08-31T16:59:08Z2022Este proyecto contribuye contundentemente, mediante herramientas de análisis exploratorio y de información, en la búsqueda de factores determinantes que influyen en el cumplimiento de objetivos trazados en los procesos empresariales a través de la Minería de Datos. Con ello se busca optimizar de manera clara y concisa todo tipo de patrones, comportamientos y/o correlaciones que pueden afectar su objetivo final. Así las cosas, para este proyecto, la técnica de Minería de Datos se desarrolla a través de un software generado en lenguaje de programación Python mediante el cual se manipulan bases de datos, para este caso “Pruebas Saber”, las cuales fueron depuradas y analizadas, ejecutando algoritmos de Clusterización y Árboles de decisión que permitieron el descubrimiento de patrones y anomalías generando conclusiones que permiten fortalecer los procesos en aras de desaparecer sus debilidades y otorgando herramientas para el desarrollo de estrategias en el mejoramiento de los niveles productivos en los individuos.This project contributes strongly, through exploratory and information analysis tools, in the search for determining factors that influence the fulfillment of objectives set in business processes through Data Mining. This seeks to optimize in a clear and concise manner all types of patterns, behaviors and/or correlations that may affect its final objective. Thus, for this project, the Data Mining technique is developed through software generated in the Python programming language through which databases are manipulated, in this case "Tests Know", which were debugged and analyzed, executing Clustering and Decision Tree algorithms that allowed the discovery of patterns and anomalies, generating conclusions that allow strengthening the processes in order to eliminate their weaknesses and providing tools for the development of strategies to improve the productive levels in individuals.PregradoIngeniero de SistemasÍndice de Figuras .... 4 Índice de Gráficos... 6 Introducción....8 1. Generalidades....9 1.1. Planteamiento del Problema.... 9 1.2. Antecedentes....10 2. Objetivos ... 11 2.1. Objetivo General....11 2.2. Objetivos Específicos....11 3. Justificación....12 4. Marco teórico....13 4.1. Base de datos Pruebas Saber.... 13 4.1.1. Prueba Saber 11°....13 4.1.2. Pruebas Saber Pro.... 14 5. Marco práctico .... 16 5.1. ETL..... 16 5.1.1. ETL con Microsoft Excel....16 5.1.1.1. Extraer datos de sistemas heredados.... 17 5.1.1.2. Cargar datos en una base de datos de destino..... 21 5.1.1.3. Limpieza de datos para calidad y consistencia....26 5.1.2. ETL con Pandas librería de Python....26 5.1.2.1. Preparación de las DB SB11_20151 y SB11_20152....28 5.1.2.2. Concatenar SB11_2015....28 5.1.2.3. Inner Join SB11_2015 y Llave_Saber11_2006-1_2020- 2_SaberPRO2020....30 5.1.2.4. Inner Join Llave_SB11_2015 y EK_2020.... 31 5.2. Análisis exploratorios de datos (EDA).... 32 5.2.1. Jupyter Notebook .. 34 5.2.2. Exploratory Data Analysis 35 5.2.2.1. Gráficos con Plotly.... 37 5.2.2.2. Gráficos con Matplotlib....48 5.2.3. Síntesis e Insights de resultados del EDA....51 5.2.4. Planificación del Modelado... 57 5.3. Modelado....58 5.3.1. Clusterización... ¡Error! Marcador no definido. 5.3.1.1. Algoritmo Clusterización. .... 58 5.3.1.2. EDA Clusterización... 69 5.3.1.3. Síntesis de resultados Clusterización....73 5.3.2. Decision Tree ...73 5.3.2.1. Algoritmo Decision Tree. .... 74 5.3.2.2. Síntesis de resultados Desicion Tree....79 6. Conclusión y recomendaciones....83 6.1. Conclusiones....83 6.2. Recomendaciones... 84 Anexos.... 85 Referencias bibliográficas .....8692 páginasapplication/pdfSalamanca Martínez, C.D. (2022). Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las Pruebas Saber 11 (2015) y simúltaneamente el desempeño obtenido en las Pruebas Saber Pro (2020) en Colombia. [Trabajo de grado. Universidad de Ibagué].https://hdl.handle.net/20.500.12313/3803spaUniversidad de IbaguéIngenieríaIbaguéIngenieria de SistemasEducation, I. C. (10 de Septiembre de 2021). ETL (Extract, Transform, Load). Obtenido de https://www.ibm.com/cloud/learn/etl#toc-etl-and-ot-NiTFjp1vFernandez, R. (21 de Abril de 2020). ¿Qué es el Análisis Exploratorio de Datos o EDA? Obtenido de https://unipython.com/que-es-el-analisis-exploratorio-de-datos/Geard, G. (12 de Mayo de 2021). Beneficios de un buen desempeño en las pruebas Saber Pro. Obtenido de https://grupogeard.com/co/blog/icfes-saber/saber-pro/beneficios desempeno-pruebas-saber pro/#:%7E:text=Este%20busca%20evaluar%20el%20nivel,revisar%20el%20nivel %20de%20preparaci%C3%B3n.I.C.F.E.S. (2018). Documentación del examen Saber PRO. Obtenido de Icfes: https://www.icfes.gov.co/documents/20143/518352/Documentacion%20saber%20p ro.pdfPortafolio. (5 de Diciembre de 2021). Portafolio.co. Obtenido de Solo 19% de los estudiantes tiene buenos resultados en Saber 11: https://www.portafolio.co/economia/icfes-solo-19-de-los-estudiantes-tiene-buenos resultados-en-saber-11-559325Pruebas Saber, M. (2015). mineducacion. Obtenido de https://www.mineducacion.gov.co/1621/w3-article 244735.html#:%7E:text=Pruebas%20Saber%2011%C2%B0&text=Comprobar%20 el%20grado%20de%20desarrollo,de%20su%20proyecto%20de%20vidaSemana. (5 de Marzo de 2022). El 91,8 % de los abusos sexuales en Colombia pertenecen a mujeres. Obtenido de Semana.com Ultimas Noticias de Colombia y el Mundo: https://www.semana.com/nacion/articulo/el-918-de-los-abusos-sexuales-en colombia-pertenecen-a-mujeres/202212/Software, C. (19 de Septiembre de 2021). Arboles de decisiones en la minería de datos. Obtenido de https://conectasoftware.com/analytics/arboles-de-decisiones-en-la mineria-de-datosUnir, V. (18 de Febrero de 2021). Gráficos estadísticos: tipos e importancia en la comunicación de datos. Obtenido de https://www.unir.net/marketing comunicacion/revista/graficos estadisticos/#:%7E:text=Los%20gr%C3%A1ficos%20estad%C3%ADsticos%20son %20potentes,la%20evoluci%C3%B3n%20de%20distintas%20variables.info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)https://creativecommons.org/licenses/by-nc-nd/4.0/Pruebas saber 11 (2015-2020) -- Minería de datos -- ColombiaMinería de DatosPythonClusterizaciónArboles de DecisiónPruebas SaberData MiningPythonClusteringDecision TreesSaber TestsImplementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las pruebas Saber 11 (2015) y simultáneamente el desempeño obtenido en las pruebas Saber Pro (2020) en ColombiaTrabajo de grado - Pregradohttp://purl.org/coar/resource_type/c_7a1fTextinfo:eu-repo/semantics/bachelorThesishttp://purl.org/redcol/resource_type/TPinfo:eu-repo/semantics/acceptedVersionPublicationORIGINALTrabajo de grado.pdfTrabajo de grado.pdfapplication/pdf4693366https://repositorio.unibague.edu.co/bitstreams/53178857-616a-490b-8c65-ab4ea44a0697/downloadf7f76545c3223272e669437d12ba70d9MD51Anexos-20230831T135659Z-001.zipAnexos-20230831T135659Z-001.zipapplication/zip66495https://repositorio.unibague.edu.co/bitstreams/4e5179fe-8e53-4c42-9650-89d9558b8676/downloada562673324f840fb1ef6e60e050323c3MD52Formato de autorización.pdfFormato de autorización.pdfapplication/pdf472377https://repositorio.unibague.edu.co/bitstreams/4fda3e43-d196-44d5-88f2-28ec26e6027e/download88b9d540e0a5d1a400f6f42857e6a9afMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-8134https://repositorio.unibague.edu.co/bitstreams/ee68e045-db12-4a55-960f-20cdf800e7bb/download2fa3e590786b9c0f3ceba1b9656b7ac3MD54TEXTTrabajo de grado.pdf.txtTrabajo de grado.pdf.txtExtracted texttext/plain101706https://repositorio.unibague.edu.co/bitstreams/d4d32102-bda8-4109-97f9-4e1c1ed00a3e/downloadda0b973f5ff147d5a8f003e78c4ccdfaMD55Formato de autorización.pdf.txtFormato de autorización.pdf.txtExtracted texttext/plain3302https://repositorio.unibague.edu.co/bitstreams/b16ebea4-0037-43ee-b02c-f102eadbfdbf/download4270d9ba940afcb78dc606897a8fd38bMD57THUMBNAILTrabajo de grado.pdf.jpgTrabajo de grado.pdf.jpgGenerated Thumbnailimage/jpeg8084https://repositorio.unibague.edu.co/bitstreams/1aa31e10-4bef-4cfe-b01e-08ccd05e85eb/download90223ee7049e95168377187b4a946d9dMD56Formato de autorización.pdf.jpgFormato de autorización.pdf.jpgGenerated Thumbnailimage/jpeg14799https://repositorio.unibague.edu.co/bitstreams/e6ff19e4-f1f7-4f3f-9027-f1f867561cbe/downloadd36aea4b286853182838d2956cc0717eMD5820.500.12313/3803oai:repositorio.unibague.edu.co:20.500.12313/38032023-09-01 03:00:22.929https://creativecommons.org/licenses/by-nc-nd/4.0/https://repositorio.unibague.edu.coRepositorio Institucional Universidad de Ibaguébdigital@metabiblioteca.comQ3JlYXRpdmUgQ29tbW9ucyBBdHRyaWJ1dGlvbi1Ob25Db21tZXJjaWFsLU5vRGVyaXZhdGl2ZXMgNC4wIEludGVybmF0aW9uYWwgTGljZW5zZQ0KaHR0cHM6Ly9jcmVhdGl2ZWNvbW1vbnMub3JnL2xpY2Vuc2VzL2J5LW5jLW5kLzQuMC8=