Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las pruebas Saber 11 (2015) y simultáneamente el desempeño obtenido en las pruebas Saber Pro (2020) en Colombia
Este proyecto contribuye contundentemente, mediante herramientas de análisis exploratorio y de información, en la búsqueda de factores determinantes que influyen en el cumplimiento de objetivos trazados en los procesos empresariales a través de la Minería de Datos. Con ello se busca optimizar de man...
- Autores:
-
Salamanca Martínez, César David
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2022
- Institución:
- Universidad de Ibagué
- Repositorio:
- Repositorio Universidad de Ibagué
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unibague.edu.co:20.500.12313/3803
- Acceso en línea:
- https://hdl.handle.net/20.500.12313/3803
- Palabra clave:
- Pruebas saber 11 (2015-2020) -- Minería de datos -- Colombia
Minería de Datos
Python
Clusterización
Arboles de Decisión
Pruebas Saber
Data Mining
Python
Clustering
Decision Trees
Saber Tests
- Rights
- openAccess
- License
- http://purl.org/coar/access_right/c_abf2
id |
UNIBAGUE2_9e0fd14f2214de3b9353f2722ff21844 |
---|---|
oai_identifier_str |
oai:repositorio.unibague.edu.co:20.500.12313/3803 |
network_acronym_str |
UNIBAGUE2 |
network_name_str |
Repositorio Universidad de Ibagué |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las pruebas Saber 11 (2015) y simultáneamente el desempeño obtenido en las pruebas Saber Pro (2020) en Colombia |
title |
Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las pruebas Saber 11 (2015) y simultáneamente el desempeño obtenido en las pruebas Saber Pro (2020) en Colombia |
spellingShingle |
Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las pruebas Saber 11 (2015) y simultáneamente el desempeño obtenido en las pruebas Saber Pro (2020) en Colombia Pruebas saber 11 (2015-2020) -- Minería de datos -- Colombia Minería de Datos Python Clusterización Arboles de Decisión Pruebas Saber Data Mining Python Clustering Decision Trees Saber Tests |
title_short |
Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las pruebas Saber 11 (2015) y simultáneamente el desempeño obtenido en las pruebas Saber Pro (2020) en Colombia |
title_full |
Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las pruebas Saber 11 (2015) y simultáneamente el desempeño obtenido en las pruebas Saber Pro (2020) en Colombia |
title_fullStr |
Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las pruebas Saber 11 (2015) y simultáneamente el desempeño obtenido en las pruebas Saber Pro (2020) en Colombia |
title_full_unstemmed |
Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las pruebas Saber 11 (2015) y simultáneamente el desempeño obtenido en las pruebas Saber Pro (2020) en Colombia |
title_sort |
Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las pruebas Saber 11 (2015) y simultáneamente el desempeño obtenido en las pruebas Saber Pro (2020) en Colombia |
dc.creator.fl_str_mv |
Salamanca Martínez, César David |
dc.contributor.advisor.none.fl_str_mv |
Carvajal Beltran, Jimmy Alexander |
dc.contributor.author.none.fl_str_mv |
Salamanca Martínez, César David |
dc.subject.armarc.none.fl_str_mv |
Pruebas saber 11 (2015-2020) -- Minería de datos -- Colombia |
topic |
Pruebas saber 11 (2015-2020) -- Minería de datos -- Colombia Minería de Datos Python Clusterización Arboles de Decisión Pruebas Saber Data Mining Python Clustering Decision Trees Saber Tests |
dc.subject.proposal.spa.fl_str_mv |
Minería de Datos Python Clusterización Arboles de Decisión Pruebas Saber |
dc.subject.proposal.eng.fl_str_mv |
Data Mining Python Clustering Decision Trees Saber Tests |
description |
Este proyecto contribuye contundentemente, mediante herramientas de análisis exploratorio y de información, en la búsqueda de factores determinantes que influyen en el cumplimiento de objetivos trazados en los procesos empresariales a través de la Minería de Datos. Con ello se busca optimizar de manera clara y concisa todo tipo de patrones, comportamientos y/o correlaciones que pueden afectar su objetivo final. Así las cosas, para este proyecto, la técnica de Minería de Datos se desarrolla a través de un software generado en lenguaje de programación Python mediante el cual se manipulan bases de datos, para este caso “Pruebas Saber”, las cuales fueron depuradas y analizadas, ejecutando algoritmos de Clusterización y Árboles de decisión que permitieron el descubrimiento de patrones y anomalías generando conclusiones que permiten fortalecer los procesos en aras de desaparecer sus debilidades y otorgando herramientas para el desarrollo de estrategias en el mejoramiento de los niveles productivos en los individuos. |
publishDate |
2022 |
dc.date.issued.none.fl_str_mv |
2022 |
dc.date.accessioned.none.fl_str_mv |
2023-08-31T16:59:08Z |
dc.date.available.none.fl_str_mv |
2023-08-31T16:59:08Z |
dc.type.none.fl_str_mv |
Trabajo de grado - Pregrado |
dc.type.coar.none.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
dc.type.content.none.fl_str_mv |
Text |
dc.type.driver.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
dc.type.redcol.none.fl_str_mv |
http://purl.org/redcol/resource_type/TP |
dc.type.version.none.fl_str_mv |
info:eu-repo/semantics/acceptedVersion |
format |
http://purl.org/coar/resource_type/c_7a1f |
status_str |
acceptedVersion |
dc.identifier.citation.none.fl_str_mv |
Salamanca Martínez, C.D. (2022). Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las Pruebas Saber 11 (2015) y simúltaneamente el desempeño obtenido en las Pruebas Saber Pro (2020) en Colombia. [Trabajo de grado. Universidad de Ibagué]. |
dc.identifier.uri.none.fl_str_mv |
https://hdl.handle.net/20.500.12313/3803 |
identifier_str_mv |
Salamanca Martínez, C.D. (2022). Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las Pruebas Saber 11 (2015) y simúltaneamente el desempeño obtenido en las Pruebas Saber Pro (2020) en Colombia. [Trabajo de grado. Universidad de Ibagué]. |
url |
https://hdl.handle.net/20.500.12313/3803 |
dc.language.iso.none.fl_str_mv |
spa |
language |
spa |
dc.relation.references.none.fl_str_mv |
Education, I. C. (10 de Septiembre de 2021). ETL (Extract, Transform, Load). Obtenido de https://www.ibm.com/cloud/learn/etl#toc-etl-and-ot-NiTFjp1v Fernandez, R. (21 de Abril de 2020). ¿Qué es el Análisis Exploratorio de Datos o EDA? Obtenido de https://unipython.com/que-es-el-analisis-exploratorio-de-datos/ Geard, G. (12 de Mayo de 2021). Beneficios de un buen desempeño en las pruebas Saber Pro. Obtenido de https://grupogeard.com/co/blog/icfes-saber/saber-pro/beneficios desempeno-pruebas-saber pro/#:%7E:text=Este%20busca%20evaluar%20el%20nivel,revisar%20el%20nivel %20de%20preparaci%C3%B3n. I.C.F.E.S. (2018). Documentación del examen Saber PRO. Obtenido de Icfes: https://www.icfes.gov.co/documents/20143/518352/Documentacion%20saber%20p ro.pdf Portafolio. (5 de Diciembre de 2021). Portafolio.co. Obtenido de Solo 19% de los estudiantes tiene buenos resultados en Saber 11: https://www.portafolio.co/economia/icfes-solo-19-de-los-estudiantes-tiene-buenos resultados-en-saber-11-559325 Pruebas Saber, M. (2015). mineducacion. Obtenido de https://www.mineducacion.gov.co/1621/w3-article 244735.html#:%7E:text=Pruebas%20Saber%2011%C2%B0&text=Comprobar%20 el%20grado%20de%20desarrollo,de%20su%20proyecto%20de%20vida Semana. (5 de Marzo de 2022). El 91,8 % de los abusos sexuales en Colombia pertenecen a mujeres. Obtenido de Semana.com Ultimas Noticias de Colombia y el Mundo: https://www.semana.com/nacion/articulo/el-918-de-los-abusos-sexuales-en colombia-pertenecen-a-mujeres/202212/ Software, C. (19 de Septiembre de 2021). Arboles de decisiones en la minería de datos. Obtenido de https://conectasoftware.com/analytics/arboles-de-decisiones-en-la mineria-de-datos Unir, V. (18 de Febrero de 2021). Gráficos estadísticos: tipos e importancia en la comunicación de datos. Obtenido de https://www.unir.net/marketing comunicacion/revista/graficos estadisticos/#:%7E:text=Los%20gr%C3%A1ficos%20estad%C3%ADsticos%20son %20potentes,la%20evoluci%C3%B3n%20de%20distintas%20variables. |
dc.rights.accessrights.none.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.coar.none.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.license.none.fl_str_mv |
Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0) |
dc.rights.uri.none.fl_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://purl.org/coar/access_right/c_abf2 Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0) https://creativecommons.org/licenses/by-nc-nd/4.0/ |
dc.format.extent.none.fl_str_mv |
92 páginas |
dc.format.mimetype.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de Ibagué |
dc.publisher.faculty.none.fl_str_mv |
Ingeniería |
dc.publisher.place.none.fl_str_mv |
Ibagué |
dc.publisher.program.none.fl_str_mv |
Ingenieria de Sistemas |
publisher.none.fl_str_mv |
Universidad de Ibagué |
institution |
Universidad de Ibagué |
bitstream.url.fl_str_mv |
https://repositorio.unibague.edu.co/bitstreams/53178857-616a-490b-8c65-ab4ea44a0697/download https://repositorio.unibague.edu.co/bitstreams/4e5179fe-8e53-4c42-9650-89d9558b8676/download https://repositorio.unibague.edu.co/bitstreams/4fda3e43-d196-44d5-88f2-28ec26e6027e/download https://repositorio.unibague.edu.co/bitstreams/ee68e045-db12-4a55-960f-20cdf800e7bb/download https://repositorio.unibague.edu.co/bitstreams/d4d32102-bda8-4109-97f9-4e1c1ed00a3e/download https://repositorio.unibague.edu.co/bitstreams/b16ebea4-0037-43ee-b02c-f102eadbfdbf/download https://repositorio.unibague.edu.co/bitstreams/1aa31e10-4bef-4cfe-b01e-08ccd05e85eb/download https://repositorio.unibague.edu.co/bitstreams/e6ff19e4-f1f7-4f3f-9027-f1f867561cbe/download |
bitstream.checksum.fl_str_mv |
f7f76545c3223272e669437d12ba70d9 a562673324f840fb1ef6e60e050323c3 88b9d540e0a5d1a400f6f42857e6a9af 2fa3e590786b9c0f3ceba1b9656b7ac3 da0b973f5ff147d5a8f003e78c4ccdfa 4270d9ba940afcb78dc606897a8fd38b 90223ee7049e95168377187b4a946d9d d36aea4b286853182838d2956cc0717e |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional Universidad de Ibagué |
repository.mail.fl_str_mv |
bdigital@metabiblioteca.com |
_version_ |
1814204087502110720 |
spelling |
Carvajal Beltran, Jimmy Alexanderdf7f0932-fc7a-4158-aa4e-3596be7d04dc-1Salamanca Martínez, César Davidc0dedbb9-61af-4932-9bc8-76914711e109-12023-08-31T16:59:08Z2023-08-31T16:59:08Z2022Este proyecto contribuye contundentemente, mediante herramientas de análisis exploratorio y de información, en la búsqueda de factores determinantes que influyen en el cumplimiento de objetivos trazados en los procesos empresariales a través de la Minería de Datos. Con ello se busca optimizar de manera clara y concisa todo tipo de patrones, comportamientos y/o correlaciones que pueden afectar su objetivo final. Así las cosas, para este proyecto, la técnica de Minería de Datos se desarrolla a través de un software generado en lenguaje de programación Python mediante el cual se manipulan bases de datos, para este caso “Pruebas Saber”, las cuales fueron depuradas y analizadas, ejecutando algoritmos de Clusterización y Árboles de decisión que permitieron el descubrimiento de patrones y anomalías generando conclusiones que permiten fortalecer los procesos en aras de desaparecer sus debilidades y otorgando herramientas para el desarrollo de estrategias en el mejoramiento de los niveles productivos en los individuos.This project contributes strongly, through exploratory and information analysis tools, in the search for determining factors that influence the fulfillment of objectives set in business processes through Data Mining. This seeks to optimize in a clear and concise manner all types of patterns, behaviors and/or correlations that may affect its final objective. Thus, for this project, the Data Mining technique is developed through software generated in the Python programming language through which databases are manipulated, in this case "Tests Know", which were debugged and analyzed, executing Clustering and Decision Tree algorithms that allowed the discovery of patterns and anomalies, generating conclusions that allow strengthening the processes in order to eliminate their weaknesses and providing tools for the development of strategies to improve the productive levels in individuals.PregradoIngeniero de SistemasÍndice de Figuras .... 4 Índice de Gráficos... 6 Introducción....8 1. Generalidades....9 1.1. Planteamiento del Problema.... 9 1.2. Antecedentes....10 2. Objetivos ... 11 2.1. Objetivo General....11 2.2. Objetivos Específicos....11 3. Justificación....12 4. Marco teórico....13 4.1. Base de datos Pruebas Saber.... 13 4.1.1. Prueba Saber 11°....13 4.1.2. Pruebas Saber Pro.... 14 5. Marco práctico .... 16 5.1. ETL..... 16 5.1.1. ETL con Microsoft Excel....16 5.1.1.1. Extraer datos de sistemas heredados.... 17 5.1.1.2. Cargar datos en una base de datos de destino..... 21 5.1.1.3. Limpieza de datos para calidad y consistencia....26 5.1.2. ETL con Pandas librería de Python....26 5.1.2.1. Preparación de las DB SB11_20151 y SB11_20152....28 5.1.2.2. Concatenar SB11_2015....28 5.1.2.3. Inner Join SB11_2015 y Llave_Saber11_2006-1_2020- 2_SaberPRO2020....30 5.1.2.4. Inner Join Llave_SB11_2015 y EK_2020.... 31 5.2. Análisis exploratorios de datos (EDA).... 32 5.2.1. Jupyter Notebook .. 34 5.2.2. Exploratory Data Analysis 35 5.2.2.1. Gráficos con Plotly.... 37 5.2.2.2. Gráficos con Matplotlib....48 5.2.3. Síntesis e Insights de resultados del EDA....51 5.2.4. Planificación del Modelado... 57 5.3. Modelado....58 5.3.1. Clusterización... ¡Error! Marcador no definido. 5.3.1.1. Algoritmo Clusterización. .... 58 5.3.1.2. EDA Clusterización... 69 5.3.1.3. Síntesis de resultados Clusterización....73 5.3.2. Decision Tree ...73 5.3.2.1. Algoritmo Decision Tree. .... 74 5.3.2.2. Síntesis de resultados Desicion Tree....79 6. Conclusión y recomendaciones....83 6.1. Conclusiones....83 6.2. Recomendaciones... 84 Anexos.... 85 Referencias bibliográficas .....8692 páginasapplication/pdfSalamanca Martínez, C.D. (2022). Implementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las Pruebas Saber 11 (2015) y simúltaneamente el desempeño obtenido en las Pruebas Saber Pro (2020) en Colombia. [Trabajo de grado. Universidad de Ibagué].https://hdl.handle.net/20.500.12313/3803spaUniversidad de IbaguéIngenieríaIbaguéIngenieria de SistemasEducation, I. C. (10 de Septiembre de 2021). ETL (Extract, Transform, Load). Obtenido de https://www.ibm.com/cloud/learn/etl#toc-etl-and-ot-NiTFjp1vFernandez, R. (21 de Abril de 2020). ¿Qué es el Análisis Exploratorio de Datos o EDA? Obtenido de https://unipython.com/que-es-el-analisis-exploratorio-de-datos/Geard, G. (12 de Mayo de 2021). Beneficios de un buen desempeño en las pruebas Saber Pro. Obtenido de https://grupogeard.com/co/blog/icfes-saber/saber-pro/beneficios desempeno-pruebas-saber pro/#:%7E:text=Este%20busca%20evaluar%20el%20nivel,revisar%20el%20nivel %20de%20preparaci%C3%B3n.I.C.F.E.S. (2018). Documentación del examen Saber PRO. Obtenido de Icfes: https://www.icfes.gov.co/documents/20143/518352/Documentacion%20saber%20p ro.pdfPortafolio. (5 de Diciembre de 2021). Portafolio.co. Obtenido de Solo 19% de los estudiantes tiene buenos resultados en Saber 11: https://www.portafolio.co/economia/icfes-solo-19-de-los-estudiantes-tiene-buenos resultados-en-saber-11-559325Pruebas Saber, M. (2015). mineducacion. Obtenido de https://www.mineducacion.gov.co/1621/w3-article 244735.html#:%7E:text=Pruebas%20Saber%2011%C2%B0&text=Comprobar%20 el%20grado%20de%20desarrollo,de%20su%20proyecto%20de%20vidaSemana. (5 de Marzo de 2022). El 91,8 % de los abusos sexuales en Colombia pertenecen a mujeres. Obtenido de Semana.com Ultimas Noticias de Colombia y el Mundo: https://www.semana.com/nacion/articulo/el-918-de-los-abusos-sexuales-en colombia-pertenecen-a-mujeres/202212/Software, C. (19 de Septiembre de 2021). Arboles de decisiones en la minería de datos. Obtenido de https://conectasoftware.com/analytics/arboles-de-decisiones-en-la mineria-de-datosUnir, V. (18 de Febrero de 2021). Gráficos estadísticos: tipos e importancia en la comunicación de datos. Obtenido de https://www.unir.net/marketing comunicacion/revista/graficos estadisticos/#:%7E:text=Los%20gr%C3%A1ficos%20estad%C3%ADsticos%20son %20potentes,la%20evoluci%C3%B3n%20de%20distintas%20variables.info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)https://creativecommons.org/licenses/by-nc-nd/4.0/Pruebas saber 11 (2015-2020) -- Minería de datos -- ColombiaMinería de DatosPythonClusterizaciónArboles de DecisiónPruebas SaberData MiningPythonClusteringDecision TreesSaber TestsImplementación de la técnica de minería de datos para el descubrimiento de patrones y correlaciones con base en el desempeño de los estudiantes obtenido en las pruebas Saber 11 (2015) y simultáneamente el desempeño obtenido en las pruebas Saber Pro (2020) en ColombiaTrabajo de grado - Pregradohttp://purl.org/coar/resource_type/c_7a1fTextinfo:eu-repo/semantics/bachelorThesishttp://purl.org/redcol/resource_type/TPinfo:eu-repo/semantics/acceptedVersionPublicationORIGINALTrabajo de grado.pdfTrabajo de grado.pdfapplication/pdf4693366https://repositorio.unibague.edu.co/bitstreams/53178857-616a-490b-8c65-ab4ea44a0697/downloadf7f76545c3223272e669437d12ba70d9MD51Anexos-20230831T135659Z-001.zipAnexos-20230831T135659Z-001.zipapplication/zip66495https://repositorio.unibague.edu.co/bitstreams/4e5179fe-8e53-4c42-9650-89d9558b8676/downloada562673324f840fb1ef6e60e050323c3MD52Formato de autorización.pdfFormato de autorización.pdfapplication/pdf472377https://repositorio.unibague.edu.co/bitstreams/4fda3e43-d196-44d5-88f2-28ec26e6027e/download88b9d540e0a5d1a400f6f42857e6a9afMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-8134https://repositorio.unibague.edu.co/bitstreams/ee68e045-db12-4a55-960f-20cdf800e7bb/download2fa3e590786b9c0f3ceba1b9656b7ac3MD54TEXTTrabajo de grado.pdf.txtTrabajo de grado.pdf.txtExtracted texttext/plain101706https://repositorio.unibague.edu.co/bitstreams/d4d32102-bda8-4109-97f9-4e1c1ed00a3e/downloadda0b973f5ff147d5a8f003e78c4ccdfaMD55Formato de autorización.pdf.txtFormato de autorización.pdf.txtExtracted texttext/plain3302https://repositorio.unibague.edu.co/bitstreams/b16ebea4-0037-43ee-b02c-f102eadbfdbf/download4270d9ba940afcb78dc606897a8fd38bMD57THUMBNAILTrabajo de grado.pdf.jpgTrabajo de grado.pdf.jpgGenerated Thumbnailimage/jpeg8084https://repositorio.unibague.edu.co/bitstreams/1aa31e10-4bef-4cfe-b01e-08ccd05e85eb/download90223ee7049e95168377187b4a946d9dMD56Formato de autorización.pdf.jpgFormato de autorización.pdf.jpgGenerated Thumbnailimage/jpeg14799https://repositorio.unibague.edu.co/bitstreams/e6ff19e4-f1f7-4f3f-9027-f1f867561cbe/downloadd36aea4b286853182838d2956cc0717eMD5820.500.12313/3803oai:repositorio.unibague.edu.co:20.500.12313/38032023-09-01 03:00:22.929https://creativecommons.org/licenses/by-nc-nd/4.0/https://repositorio.unibague.edu.coRepositorio Institucional Universidad de Ibaguébdigital@metabiblioteca.comQ3JlYXRpdmUgQ29tbW9ucyBBdHRyaWJ1dGlvbi1Ob25Db21tZXJjaWFsLU5vRGVyaXZhdGl2ZXMgNC4wIEludGVybmF0aW9uYWwgTGljZW5zZQ0KaHR0cHM6Ly9jcmVhdGl2ZWNvbW1vbnMub3JnL2xpY2Vuc2VzL2J5LW5jLW5kLzQuMC8= |