Analítica de datos para la predicción del desempeño en el examen saber 11

La analítica de datos que es la ciencia que tiene como tarea examinar los datos en bruto, y sacar conclusiones útiles, y el Machine Learning es una importante área en la Inteligencia Artificial, dos de las más populares áreas del conocimiento en la actualidad y es porque buscan automatizar procesos...

Full description

Autores:
Forero Africano, Aron Rene
Tipo de recurso:
http://purl.org/coar/version/c_b1a7d7d4d402bcce
Fecha de publicación:
2018
Institución:
Universidad Industrial de Santander
Repositorio:
Repositorio UIS
Idioma:
spa
OAI Identifier:
oai:noesis.uis.edu.co:20.500.14071/38589
Acceso en línea:
https://noesis.uis.edu.co/handle/20.500.14071/38589
https://noesis.uis.edu.co
Palabra clave:
Icfes
Examen Saber11
Desempeño En El Examen Saber11
Deserción Estudiantil
Analítica De Datos
Machine Learning
Inteligencia Artificial.
Icfes
Saber11 Exam
Performance In Saber11 Exam
Data Analytics
Machine Learning
Artificial Intelligence.
Rights
License
Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
Description
Summary:La analítica de datos que es la ciencia que tiene como tarea examinar los datos en bruto, y sacar conclusiones útiles, y el Machine Learning es una importante área en la Inteligencia Artificial, dos de las más populares áreas del conocimiento en la actualidad y es porque buscan automatizar procesos que se realizan manualmente, pero que pueden ser llevados a cabo por una máquina. La educación colombiana si bien ha visto una evolución significativa en los últimos años, se sitúa muy atrás en comparación con otros países. Los procesos de seguimiento y mejoramiento de la educación no dan los mejores resultados, y los programas de apoyo a los estudiantes son muy ineficaces y lentos; por tanto en esta investigación se propone la construcción de una herramienta de machine learning que contribuya a la identificación de los factores socio-económicos que afectan el rendimiento académico de los estudiantes. Se plantea utilizar los datos que proporciona las pruebas SABER11, desde el año 2000 hasta el año 2017. A estos datos se les hizo un análisis exploratorio y luego una limpieza profunda para que fuese posible su uso posterior en un modelo de machine learning. Con los datos ya limpios se hizo un análisis más profundo para tratar cualquier fenómeno particular que presentaran los datos. Lo siguiente fue plantear los modelos predictivos, realizar las respectivas pruebas, la selección de mejores algoritmos y la experimentación para obtener resultados. Se consiguió un error medio absoluto de 7.13 y finalmente se realizó un análisis a los resultados y se concluyó que factores como los ingresos familiares, la educación de los padres, algunos aspectos del colegio, entre otros, influyen en el rendimiento académico del estudiante.