Modelamiento de la deserción universitaria en la Universidad Cooperativa de Colombia sede Villavicencio mediante algoritmos de Machine Learning
En esta investigación de trabajo de grado de pregrado se recolectaron registros de datos socioeconómicos, personales y de percepción académica de estudiantes activos de la facultad de ingeniería de la Universidad Cooperativa de Colombia sede Villavicencio, los cuales por medio de un proceso de limpi...
- Autores:
-
Galvis Martínez, Miguel Ángel
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2024
- Institución:
- Universidad Cooperativa de Colombia
- Repositorio:
- Repositorio UCC
- Idioma:
- spa
- OAI Identifier:
- oai:repository.ucc.edu.co:20.500.12494/56199
- Acceso en línea:
- https://hdl.handle.net/20.500.12494/56199
- Palabra clave:
- 000 - Ciencias de la computación, información y obras generales
Deserción
Modelos computacionales
Minería de datos
Desertion
Computational models
Data mining
- Rights
- openAccess
- License
- https://creativecommons.org/licenses/by-nc-nd/4.0/
Summary: | En esta investigación de trabajo de grado de pregrado se recolectaron registros de datos socioeconómicos, personales y de percepción académica de estudiantes activos de la facultad de ingeniería de la Universidad Cooperativa de Colombia sede Villavicencio, los cuales por medio de un proceso de limpieza y análisis exploratorio se adecuaron con el objetivo de entrenar modelos computacionales de Random Forest para determinar la probabilidad de que un estudiante abandone sus estudios académicos. En este documento en primer lugar se realiza una descripción sobre lo que es la deserción basada en datos y estudios nacionales como internacionales y se contextualiza la problemática en Colombia, posteriormente se explican los conceptos que se usaran en esta investigación tales como machine learning, data mining, modelos computacionales, métricas de evaluación, entre otros. Luego se detalla el procedimiento del trabajo que se realizó en la recolección de más de 800 registros de estudiantes por medio de una serie de encuestas realizadas en los periodos académicos 2023-10 y 2023-20, con más de 45 preguntas, donde se tomó una muestra de 483 estudiantes que pertenecen a la facultad de ingeniería la cual está conformada por ingeniería de sistemas e ingeniería civil. Estos 2 datasets fueron sometidos a un análisis descriptivo con el fin de unificarlos en uno solo, en donde se aplicaron métodos de limpieza y estadísticos para ordenar la información de forma óptima para el entrenamiento de los modelos. La parte final del trabajo se concentra en el entrenamiento de modelos computacionales basados en el Algoritmo Random Forest, el cual es implementado mediante el uso de la librería sklearn.ensemble.RandomForestClassifier de Python y la metodología de búsqueda amplia GridsearchCv mediante la librería sklearn.model_selection.GridSearchCV para optimización de parámetros. Bajo este dataset se determina una configuración óptima de parámetros que entrega un 46.4 % de la métrica de desempeño. |
---|