Diseño de un modelo de clasificación para predicción de oportunidad laboral a partir de la GEIH que tenga en cuenta el concept drift
Para realizar una decisión migratoria, se deben considerar múltiples aspectos, entre ellos el político, económico y las oportunidades laborales. La posibilidad de encontrar empleo formal es un factor clave para los migrantes, por lo que el uso de modelos de machine learning para predecir esta posibi...
- Autores:
-
Buitrago, Santiago
Brito, Alberto
Santiago, Leonardo
- Tipo de recurso:
- Fecha de publicación:
- 2023
- Institución:
- Universidad del Norte
- Repositorio:
- Repositorio Uninorte
- Idioma:
- spa
- OAI Identifier:
- oai:manglar.uninorte.edu.co:10584/11556
- Acceso en línea:
- http://hdl.handle.net/10584/11556
- Palabra clave:
- modelos de clasificación
lotes de datos
data drift
sudden drift
- Rights
- License
- Universidad del Norte
Summary: | Para realizar una decisión migratoria, se deben considerar múltiples aspectos, entre ellos el político, económico y las oportunidades laborales. La posibilidad de encontrar empleo formal es un factor clave para los migrantes, por lo que el uso de modelos de machine learning para predecir esta posibilidad sería de gran utilidad para quienes deseen emigrar a nuestro país. La pandemia del Covid-19 ha impactado adversamente el funcionamiento social, y este proyecto aprovecha esta coyuntura para estudiar el concepto de cambio en los modelos de machine learning, conocido como concept drift. Se busca medir y proponer la mejor solución para manejar este fenómeno. Se diseñan cuatro modelos de machine learning para clasificar nuestra variable de interés: Random Forest, Logistic Regression, Decision Tree y K-Neighbors. A través de la validación cruzada, se determina que el mejor modelo es Logistic Regression. Este modelo se ajusta usando los datos previos a la pandemia suministrados por el DANE y la encuesta GEIH. Estos datos son preprocesados para obtener las variables relevantes y se dividen en dos conjuntos: antes y durante la etapa de la pandemia. Con el objetivo de mejorar las métricas de rendimiento, se utiliza la técnica de submuestreo (undersampling) debido al desequilibrio en la variable de interés, lo cual dificulta que el modelo pueda predecir de manera precisa. Se proponen y evalúan tres escenarios de posibles soluciones para abordar el concept drift. Se realiza una comparación estadística de las métricas de AUC en cada escenario y se determina que la mejor solución es volver a entrenar el modelo con los datos de la etapa de la pandemia. En resumen, este proyecto utiliza modelos de machine learning para predecir la posibilidad de encontrar empleo formal en nuestro país. Además, se aborda el concept drift en los modelos y se propone la mejor solución, que implica el reentrenamiento del modelo con datos actualizados durante la pandemia. |
---|