Diseño de un modelo de clasificación para predicción de oportunidad laboral a partir de la GEIH que tenga en cuenta el concept drift

Para realizar una decisión migratoria, se deben considerar múltiples aspectos, entre ellos el político, económico y las oportunidades laborales. La posibilidad de encontrar empleo formal es un factor clave para los migrantes, por lo que el uso de modelos de machine learning para predecir esta posibi...

Full description

Autores:
Buitrago, Santiago
Brito, Alberto
Santiago, Leonardo
Tipo de recurso:
Fecha de publicación:
2023
Institución:
Universidad del Norte
Repositorio:
Repositorio Uninorte
Idioma:
spa
OAI Identifier:
oai:manglar.uninorte.edu.co:10584/11556
Acceso en línea:
http://hdl.handle.net/10584/11556
Palabra clave:
modelos de clasificación
lotes de datos
data drift
sudden drift
Rights
License
Universidad del Norte
id REPOUNORT2_fb5e27b41cedcbf10d48acba29886293
oai_identifier_str oai:manglar.uninorte.edu.co:10584/11556
network_acronym_str REPOUNORT2
network_name_str Repositorio Uninorte
repository_id_str
dc.title.es_ES.fl_str_mv Diseño de un modelo de clasificación para predicción de oportunidad laboral a partir de la GEIH que tenga en cuenta el concept drift
dc.title.en_US.fl_str_mv Design of a classification model for the prediction of job opportunity from the GEIH taking into account the concept drift
title Diseño de un modelo de clasificación para predicción de oportunidad laboral a partir de la GEIH que tenga en cuenta el concept drift
spellingShingle Diseño de un modelo de clasificación para predicción de oportunidad laboral a partir de la GEIH que tenga en cuenta el concept drift
modelos de clasificación
lotes de datos
data drift
sudden drift
title_short Diseño de un modelo de clasificación para predicción de oportunidad laboral a partir de la GEIH que tenga en cuenta el concept drift
title_full Diseño de un modelo de clasificación para predicción de oportunidad laboral a partir de la GEIH que tenga en cuenta el concept drift
title_fullStr Diseño de un modelo de clasificación para predicción de oportunidad laboral a partir de la GEIH que tenga en cuenta el concept drift
title_full_unstemmed Diseño de un modelo de clasificación para predicción de oportunidad laboral a partir de la GEIH que tenga en cuenta el concept drift
title_sort Diseño de un modelo de clasificación para predicción de oportunidad laboral a partir de la GEIH que tenga en cuenta el concept drift
dc.creator.fl_str_mv Buitrago, Santiago
Brito, Alberto
Santiago, Leonardo
dc.contributor.advisor.none.fl_str_mv Yie, Rubén
Romero, Daniel
dc.contributor.author.none.fl_str_mv Buitrago, Santiago
Brito, Alberto
Santiago, Leonardo
dc.subject.es_ES.fl_str_mv modelos de clasificación
lotes de datos
topic modelos de clasificación
lotes de datos
data drift
sudden drift
dc.subject.en_US.fl_str_mv data drift
sudden drift
description Para realizar una decisión migratoria, se deben considerar múltiples aspectos, entre ellos el político, económico y las oportunidades laborales. La posibilidad de encontrar empleo formal es un factor clave para los migrantes, por lo que el uso de modelos de machine learning para predecir esta posibilidad sería de gran utilidad para quienes deseen emigrar a nuestro país. La pandemia del Covid-19 ha impactado adversamente el funcionamiento social, y este proyecto aprovecha esta coyuntura para estudiar el concepto de cambio en los modelos de machine learning, conocido como concept drift. Se busca medir y proponer la mejor solución para manejar este fenómeno. Se diseñan cuatro modelos de machine learning para clasificar nuestra variable de interés: Random Forest, Logistic Regression, Decision Tree y K-Neighbors. A través de la validación cruzada, se determina que el mejor modelo es Logistic Regression. Este modelo se ajusta usando los datos previos a la pandemia suministrados por el DANE y la encuesta GEIH. Estos datos son preprocesados para obtener las variables relevantes y se dividen en dos conjuntos: antes y durante la etapa de la pandemia. Con el objetivo de mejorar las métricas de rendimiento, se utiliza la técnica de submuestreo (undersampling) debido al desequilibrio en la variable de interés, lo cual dificulta que el modelo pueda predecir de manera precisa. Se proponen y evalúan tres escenarios de posibles soluciones para abordar el concept drift. Se realiza una comparación estadística de las métricas de AUC en cada escenario y se determina que la mejor solución es volver a entrenar el modelo con los datos de la etapa de la pandemia. En resumen, este proyecto utiliza modelos de machine learning para predecir la posibilidad de encontrar empleo formal en nuestro país. Además, se aborda el concept drift en los modelos y se propone la mejor solución, que implica el reentrenamiento del modelo con datos actualizados durante la pandemia.
publishDate 2023
dc.date.accessioned.none.fl_str_mv 2023-06-05T16:11:18Z
dc.date.available.none.fl_str_mv 2023-06-05T16:11:18Z
dc.date.issued.none.fl_str_mv 2023-05-30
dc.type.es_ES.fl_str_mv article
dc.type.coar.fl_str_mv http://purl.org/coar/resource_type/c_6501
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/10584/11556
url http://hdl.handle.net/10584/11556
dc.language.iso.es_ES.fl_str_mv spa
language spa
dc.rights.es_ES.fl_str_mv Universidad del Norte
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv Universidad del Norte
http://purl.org/coar/access_right/c_abf2
dc.publisher.es_ES.fl_str_mv Barranquilla, Universidad del Norte, 2023
institution Universidad del Norte
bitstream.url.fl_str_mv https://manglar.uninorte.edu.co/bitstream/10584/11556/1/Concept%20drift.jpeg
https://manglar.uninorte.edu.co/bitstream/10584/11556/2/Concept%20drift.pdf
https://manglar.uninorte.edu.co/bitstream/10584/11556/3/Desviacion%20del%20concepto.jpeg
https://manglar.uninorte.edu.co/bitstream/10584/11556/4/Desviacion%20del%20concepto.pdf
https://manglar.uninorte.edu.co/bitstream/10584/11556/5/license.txt
bitstream.checksum.fl_str_mv ccb7bc383f339af922d351be25a2813b
3bbde4c0f47d53fda84dc9f91487dbbd
bffa2325bfcb0475bb67b1337bda54b1
b44ef06a3cee46e353f8dc70d6665721
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Digital de la Universidad del Norte
repository.mail.fl_str_mv mauribe@uninorte.edu.co
_version_ 1812183099753103360
spelling Yie, RubénRomero, DanielBuitrago, SantiagoBrito, AlbertoSantiago, Leonardo2023-06-05T16:11:18Z2023-06-05T16:11:18Z2023-05-30http://hdl.handle.net/10584/11556Para realizar una decisión migratoria, se deben considerar múltiples aspectos, entre ellos el político, económico y las oportunidades laborales. La posibilidad de encontrar empleo formal es un factor clave para los migrantes, por lo que el uso de modelos de machine learning para predecir esta posibilidad sería de gran utilidad para quienes deseen emigrar a nuestro país. La pandemia del Covid-19 ha impactado adversamente el funcionamiento social, y este proyecto aprovecha esta coyuntura para estudiar el concepto de cambio en los modelos de machine learning, conocido como concept drift. Se busca medir y proponer la mejor solución para manejar este fenómeno. Se diseñan cuatro modelos de machine learning para clasificar nuestra variable de interés: Random Forest, Logistic Regression, Decision Tree y K-Neighbors. A través de la validación cruzada, se determina que el mejor modelo es Logistic Regression. Este modelo se ajusta usando los datos previos a la pandemia suministrados por el DANE y la encuesta GEIH. Estos datos son preprocesados para obtener las variables relevantes y se dividen en dos conjuntos: antes y durante la etapa de la pandemia. Con el objetivo de mejorar las métricas de rendimiento, se utiliza la técnica de submuestreo (undersampling) debido al desequilibrio en la variable de interés, lo cual dificulta que el modelo pueda predecir de manera precisa. Se proponen y evalúan tres escenarios de posibles soluciones para abordar el concept drift. Se realiza una comparación estadística de las métricas de AUC en cada escenario y se determina que la mejor solución es volver a entrenar el modelo con los datos de la etapa de la pandemia. En resumen, este proyecto utiliza modelos de machine learning para predecir la posibilidad de encontrar empleo formal en nuestro país. Además, se aborda el concept drift en los modelos y se propone la mejor solución, que implica el reentrenamiento del modelo con datos actualizados durante la pandemia.This research project focuses on the decision-making process for migration, considering political, economic, and employability factors. The availability of formal employment is a significant concern for migrants, and the use of machine learning models to predict this possibility can provide valuable insights for those considering migration to a specific country. The COVID-19 pandemic has had adverse effects on social functioning, creating an opportunity to study and address the concept drift phenomenon in machine learning models. This project proposes the design of four machine learning models, namely Random Forest, Logistic Regression, Decision Tree, and K-Neighbors, to classify the target variable. The models are evaluated using cross-validation and selection methods, with Logistic Regression emerging as the top-performing model. Pre-pandemic data from DANE and the GEIH survey are preprocessed and divided into two subsets: pre-COVID and COVID stages. To enhance performance metrics, undersampling is employed due to imbalanced target variable categories. Three scenarios are proposed and evaluated to handle concept drift, comparing AUC metrics statistically. Ultimately, retraining the model with COVID-stage data is determined to be the most effective solution. This project aims to leverage machine learning models to predict formal employment opportunities for migrants while considering political, economic, and employability factors. Furthermore, it addresses the challenges posed by concept drift in models and suggests the optimal approach of retraining the model with updated pandemic-era data.spaBarranquilla, Universidad del Norte, 2023Universidad del Nortehttp://purl.org/coar/access_right/c_abf2modelos de clasificaciónlotes de datosdata driftsudden driftDiseño de un modelo de clasificación para predicción de oportunidad laboral a partir de la GEIH que tenga en cuenta el concept driftDesign of a classification model for the prediction of job opportunity from the GEIH taking into account the concept driftarticlehttp://purl.org/coar/resource_type/c_6501ORIGINALConcept drift.jpegConcept drift.jpegimage/jpeg81372https://manglar.uninorte.edu.co/bitstream/10584/11556/1/Concept%20drift.jpegccb7bc383f339af922d351be25a2813bMD51Concept drift.pdfConcept drift.pdfapplication/pdf32564https://manglar.uninorte.edu.co/bitstream/10584/11556/2/Concept%20drift.pdf3bbde4c0f47d53fda84dc9f91487dbbdMD52Desviacion del concepto.jpegDesviacion del concepto.jpegimage/jpeg90149https://manglar.uninorte.edu.co/bitstream/10584/11556/3/Desviacion%20del%20concepto.jpegbffa2325bfcb0475bb67b1337bda54b1MD53Desviacion del concepto.pdfDesviacion del concepto.pdfapplication/pdf36222https://manglar.uninorte.edu.co/bitstream/10584/11556/4/Desviacion%20del%20concepto.pdfb44ef06a3cee46e353f8dc70d6665721MD54LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://manglar.uninorte.edu.co/bitstream/10584/11556/5/license.txt8a4605be74aa9ea9d79846c1fba20a33MD5510584/11556oai:manglar.uninorte.edu.co:10584/115562023-06-05 11:11:18.737Repositorio Digital de la Universidad del Nortemauribe@uninorte.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=