Diseño de un modelo de clasificación para predicción de oportunidad laboral a partir de la GEIH que tenga en cuenta el concept drift
Para realizar una decisión migratoria, se deben considerar múltiples aspectos, entre ellos el político, económico y las oportunidades laborales. La posibilidad de encontrar empleo formal es un factor clave para los migrantes, por lo que el uso de modelos de machine learning para predecir esta posibi...
- Autores:
-
Buitrago, Santiago
Brito, Alberto
Santiago, Leonardo
- Tipo de recurso:
- Fecha de publicación:
- 2023
- Institución:
- Universidad del Norte
- Repositorio:
- Repositorio Uninorte
- Idioma:
- spa
- OAI Identifier:
- oai:manglar.uninorte.edu.co:10584/11556
- Acceso en línea:
- http://hdl.handle.net/10584/11556
- Palabra clave:
- modelos de clasificación
lotes de datos
data drift
sudden drift
- Rights
- License
- Universidad del Norte
id |
REPOUNORT2_fb5e27b41cedcbf10d48acba29886293 |
---|---|
oai_identifier_str |
oai:manglar.uninorte.edu.co:10584/11556 |
network_acronym_str |
REPOUNORT2 |
network_name_str |
Repositorio Uninorte |
repository_id_str |
|
dc.title.es_ES.fl_str_mv |
Diseño de un modelo de clasificación para predicción de oportunidad laboral a partir de la GEIH que tenga en cuenta el concept drift |
dc.title.en_US.fl_str_mv |
Design of a classification model for the prediction of job opportunity from the GEIH taking into account the concept drift |
title |
Diseño de un modelo de clasificación para predicción de oportunidad laboral a partir de la GEIH que tenga en cuenta el concept drift |
spellingShingle |
Diseño de un modelo de clasificación para predicción de oportunidad laboral a partir de la GEIH que tenga en cuenta el concept drift modelos de clasificación lotes de datos data drift sudden drift |
title_short |
Diseño de un modelo de clasificación para predicción de oportunidad laboral a partir de la GEIH que tenga en cuenta el concept drift |
title_full |
Diseño de un modelo de clasificación para predicción de oportunidad laboral a partir de la GEIH que tenga en cuenta el concept drift |
title_fullStr |
Diseño de un modelo de clasificación para predicción de oportunidad laboral a partir de la GEIH que tenga en cuenta el concept drift |
title_full_unstemmed |
Diseño de un modelo de clasificación para predicción de oportunidad laboral a partir de la GEIH que tenga en cuenta el concept drift |
title_sort |
Diseño de un modelo de clasificación para predicción de oportunidad laboral a partir de la GEIH que tenga en cuenta el concept drift |
dc.creator.fl_str_mv |
Buitrago, Santiago Brito, Alberto Santiago, Leonardo |
dc.contributor.advisor.none.fl_str_mv |
Yie, Rubén Romero, Daniel |
dc.contributor.author.none.fl_str_mv |
Buitrago, Santiago Brito, Alberto Santiago, Leonardo |
dc.subject.es_ES.fl_str_mv |
modelos de clasificación lotes de datos |
topic |
modelos de clasificación lotes de datos data drift sudden drift |
dc.subject.en_US.fl_str_mv |
data drift sudden drift |
description |
Para realizar una decisión migratoria, se deben considerar múltiples aspectos, entre ellos el político, económico y las oportunidades laborales. La posibilidad de encontrar empleo formal es un factor clave para los migrantes, por lo que el uso de modelos de machine learning para predecir esta posibilidad sería de gran utilidad para quienes deseen emigrar a nuestro país. La pandemia del Covid-19 ha impactado adversamente el funcionamiento social, y este proyecto aprovecha esta coyuntura para estudiar el concepto de cambio en los modelos de machine learning, conocido como concept drift. Se busca medir y proponer la mejor solución para manejar este fenómeno. Se diseñan cuatro modelos de machine learning para clasificar nuestra variable de interés: Random Forest, Logistic Regression, Decision Tree y K-Neighbors. A través de la validación cruzada, se determina que el mejor modelo es Logistic Regression. Este modelo se ajusta usando los datos previos a la pandemia suministrados por el DANE y la encuesta GEIH. Estos datos son preprocesados para obtener las variables relevantes y se dividen en dos conjuntos: antes y durante la etapa de la pandemia. Con el objetivo de mejorar las métricas de rendimiento, se utiliza la técnica de submuestreo (undersampling) debido al desequilibrio en la variable de interés, lo cual dificulta que el modelo pueda predecir de manera precisa. Se proponen y evalúan tres escenarios de posibles soluciones para abordar el concept drift. Se realiza una comparación estadística de las métricas de AUC en cada escenario y se determina que la mejor solución es volver a entrenar el modelo con los datos de la etapa de la pandemia. En resumen, este proyecto utiliza modelos de machine learning para predecir la posibilidad de encontrar empleo formal en nuestro país. Además, se aborda el concept drift en los modelos y se propone la mejor solución, que implica el reentrenamiento del modelo con datos actualizados durante la pandemia. |
publishDate |
2023 |
dc.date.accessioned.none.fl_str_mv |
2023-06-05T16:11:18Z |
dc.date.available.none.fl_str_mv |
2023-06-05T16:11:18Z |
dc.date.issued.none.fl_str_mv |
2023-05-30 |
dc.type.es_ES.fl_str_mv |
article |
dc.type.coar.fl_str_mv |
http://purl.org/coar/resource_type/c_6501 |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/10584/11556 |
url |
http://hdl.handle.net/10584/11556 |
dc.language.iso.es_ES.fl_str_mv |
spa |
language |
spa |
dc.rights.es_ES.fl_str_mv |
Universidad del Norte |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
rights_invalid_str_mv |
Universidad del Norte http://purl.org/coar/access_right/c_abf2 |
dc.publisher.es_ES.fl_str_mv |
Barranquilla, Universidad del Norte, 2023 |
institution |
Universidad del Norte |
bitstream.url.fl_str_mv |
https://manglar.uninorte.edu.co/bitstream/10584/11556/1/Concept%20drift.jpeg https://manglar.uninorte.edu.co/bitstream/10584/11556/2/Concept%20drift.pdf https://manglar.uninorte.edu.co/bitstream/10584/11556/3/Desviacion%20del%20concepto.jpeg https://manglar.uninorte.edu.co/bitstream/10584/11556/4/Desviacion%20del%20concepto.pdf https://manglar.uninorte.edu.co/bitstream/10584/11556/5/license.txt |
bitstream.checksum.fl_str_mv |
ccb7bc383f339af922d351be25a2813b 3bbde4c0f47d53fda84dc9f91487dbbd bffa2325bfcb0475bb67b1337bda54b1 b44ef06a3cee46e353f8dc70d6665721 8a4605be74aa9ea9d79846c1fba20a33 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Digital de la Universidad del Norte |
repository.mail.fl_str_mv |
mauribe@uninorte.edu.co |
_version_ |
1812183099753103360 |
spelling |
Yie, RubénRomero, DanielBuitrago, SantiagoBrito, AlbertoSantiago, Leonardo2023-06-05T16:11:18Z2023-06-05T16:11:18Z2023-05-30http://hdl.handle.net/10584/11556Para realizar una decisión migratoria, se deben considerar múltiples aspectos, entre ellos el político, económico y las oportunidades laborales. La posibilidad de encontrar empleo formal es un factor clave para los migrantes, por lo que el uso de modelos de machine learning para predecir esta posibilidad sería de gran utilidad para quienes deseen emigrar a nuestro país. La pandemia del Covid-19 ha impactado adversamente el funcionamiento social, y este proyecto aprovecha esta coyuntura para estudiar el concepto de cambio en los modelos de machine learning, conocido como concept drift. Se busca medir y proponer la mejor solución para manejar este fenómeno. Se diseñan cuatro modelos de machine learning para clasificar nuestra variable de interés: Random Forest, Logistic Regression, Decision Tree y K-Neighbors. A través de la validación cruzada, se determina que el mejor modelo es Logistic Regression. Este modelo se ajusta usando los datos previos a la pandemia suministrados por el DANE y la encuesta GEIH. Estos datos son preprocesados para obtener las variables relevantes y se dividen en dos conjuntos: antes y durante la etapa de la pandemia. Con el objetivo de mejorar las métricas de rendimiento, se utiliza la técnica de submuestreo (undersampling) debido al desequilibrio en la variable de interés, lo cual dificulta que el modelo pueda predecir de manera precisa. Se proponen y evalúan tres escenarios de posibles soluciones para abordar el concept drift. Se realiza una comparación estadística de las métricas de AUC en cada escenario y se determina que la mejor solución es volver a entrenar el modelo con los datos de la etapa de la pandemia. En resumen, este proyecto utiliza modelos de machine learning para predecir la posibilidad de encontrar empleo formal en nuestro país. Además, se aborda el concept drift en los modelos y se propone la mejor solución, que implica el reentrenamiento del modelo con datos actualizados durante la pandemia.This research project focuses on the decision-making process for migration, considering political, economic, and employability factors. The availability of formal employment is a significant concern for migrants, and the use of machine learning models to predict this possibility can provide valuable insights for those considering migration to a specific country. The COVID-19 pandemic has had adverse effects on social functioning, creating an opportunity to study and address the concept drift phenomenon in machine learning models. This project proposes the design of four machine learning models, namely Random Forest, Logistic Regression, Decision Tree, and K-Neighbors, to classify the target variable. The models are evaluated using cross-validation and selection methods, with Logistic Regression emerging as the top-performing model. Pre-pandemic data from DANE and the GEIH survey are preprocessed and divided into two subsets: pre-COVID and COVID stages. To enhance performance metrics, undersampling is employed due to imbalanced target variable categories. Three scenarios are proposed and evaluated to handle concept drift, comparing AUC metrics statistically. Ultimately, retraining the model with COVID-stage data is determined to be the most effective solution. This project aims to leverage machine learning models to predict formal employment opportunities for migrants while considering political, economic, and employability factors. Furthermore, it addresses the challenges posed by concept drift in models and suggests the optimal approach of retraining the model with updated pandemic-era data.spaBarranquilla, Universidad del Norte, 2023Universidad del Nortehttp://purl.org/coar/access_right/c_abf2modelos de clasificaciónlotes de datosdata driftsudden driftDiseño de un modelo de clasificación para predicción de oportunidad laboral a partir de la GEIH que tenga en cuenta el concept driftDesign of a classification model for the prediction of job opportunity from the GEIH taking into account the concept driftarticlehttp://purl.org/coar/resource_type/c_6501ORIGINALConcept drift.jpegConcept drift.jpegimage/jpeg81372https://manglar.uninorte.edu.co/bitstream/10584/11556/1/Concept%20drift.jpegccb7bc383f339af922d351be25a2813bMD51Concept drift.pdfConcept drift.pdfapplication/pdf32564https://manglar.uninorte.edu.co/bitstream/10584/11556/2/Concept%20drift.pdf3bbde4c0f47d53fda84dc9f91487dbbdMD52Desviacion del concepto.jpegDesviacion del concepto.jpegimage/jpeg90149https://manglar.uninorte.edu.co/bitstream/10584/11556/3/Desviacion%20del%20concepto.jpegbffa2325bfcb0475bb67b1337bda54b1MD53Desviacion del concepto.pdfDesviacion del concepto.pdfapplication/pdf36222https://manglar.uninorte.edu.co/bitstream/10584/11556/4/Desviacion%20del%20concepto.pdfb44ef06a3cee46e353f8dc70d6665721MD54LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://manglar.uninorte.edu.co/bitstream/10584/11556/5/license.txt8a4605be74aa9ea9d79846c1fba20a33MD5510584/11556oai:manglar.uninorte.edu.co:10584/115562023-06-05 11:11:18.737Repositorio Digital de la Universidad del Nortemauribe@uninorte.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |