Modelos de aprendizaje supervisado para la clasificación de riesgo crediticio en la entidad financiera Home Credit

RESUMEN : Home Credit Default Risk es un reto planteado por Kaggle que busca un modelo de aprendizaje automático que permita hacer predicciones del cumplimiento de pago de sus clientes al ser ésta una entidad financiera dedicada a la entrega de créditos. Se cuenta con 10 datasets y el modelo se sele...

Full description

Autores:
Caro Puerta, Laura Cristina
Rodas Zuluaga, Lady Jhoana
Tipo de recurso:
Tesis
Fecha de publicación:
2022
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/29124
Acceso en línea:
http://hdl.handle.net/10495/29124
Palabra clave:
Crédito
Credit
Gestión de riesgos
Risk management
Aprendizaje automático (inteligencia artificial)
Machine learning
Aprendizaje supervisado (aprendizaje automático)
Supervised learning (Machine learning)
Disposición a pagar
Willingness to pay
http://aims.fao.org/aos/agrovoc/c_5e003e07
http://vocabularies.unesco.org/thesaurus/concept3570
http://vocabularies.unesco.org/thesaurus/concept17117
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-sa/2.5/co/
id UDEA2_cc93f484f2cbf424e9735e7d25d93b8c
oai_identifier_str oai:bibliotecadigital.udea.edu.co:10495/29124
network_acronym_str UDEA2
network_name_str Repositorio UdeA
repository_id_str
dc.title.spa.fl_str_mv Modelos de aprendizaje supervisado para la clasificación de riesgo crediticio en la entidad financiera Home Credit
title Modelos de aprendizaje supervisado para la clasificación de riesgo crediticio en la entidad financiera Home Credit
spellingShingle Modelos de aprendizaje supervisado para la clasificación de riesgo crediticio en la entidad financiera Home Credit
Crédito
Credit
Gestión de riesgos
Risk management
Aprendizaje automático (inteligencia artificial)
Machine learning
Aprendizaje supervisado (aprendizaje automático)
Supervised learning (Machine learning)
Disposición a pagar
Willingness to pay
http://aims.fao.org/aos/agrovoc/c_5e003e07
http://vocabularies.unesco.org/thesaurus/concept3570
http://vocabularies.unesco.org/thesaurus/concept17117
title_short Modelos de aprendizaje supervisado para la clasificación de riesgo crediticio en la entidad financiera Home Credit
title_full Modelos de aprendizaje supervisado para la clasificación de riesgo crediticio en la entidad financiera Home Credit
title_fullStr Modelos de aprendizaje supervisado para la clasificación de riesgo crediticio en la entidad financiera Home Credit
title_full_unstemmed Modelos de aprendizaje supervisado para la clasificación de riesgo crediticio en la entidad financiera Home Credit
title_sort Modelos de aprendizaje supervisado para la clasificación de riesgo crediticio en la entidad financiera Home Credit
dc.creator.fl_str_mv Caro Puerta, Laura Cristina
Rodas Zuluaga, Lady Jhoana
dc.contributor.advisor.none.fl_str_mv Oviedo Carrascal, Efraín Alberto
dc.contributor.author.none.fl_str_mv Caro Puerta, Laura Cristina
Rodas Zuluaga, Lady Jhoana
dc.subject.unesco.none.fl_str_mv Crédito
Credit
Gestión de riesgos
Risk management
topic Crédito
Credit
Gestión de riesgos
Risk management
Aprendizaje automático (inteligencia artificial)
Machine learning
Aprendizaje supervisado (aprendizaje automático)
Supervised learning (Machine learning)
Disposición a pagar
Willingness to pay
http://aims.fao.org/aos/agrovoc/c_5e003e07
http://vocabularies.unesco.org/thesaurus/concept3570
http://vocabularies.unesco.org/thesaurus/concept17117
dc.subject.lemb.none.fl_str_mv Aprendizaje automático (inteligencia artificial)
Machine learning
Aprendizaje supervisado (aprendizaje automático)
Supervised learning (Machine learning)
dc.subject.agrovoc.none.fl_str_mv Disposición a pagar
Willingness to pay
dc.subject.agrovocuri.none.fl_str_mv http://aims.fao.org/aos/agrovoc/c_5e003e07
dc.subject.unescouri.none.fl_str_mv http://vocabularies.unesco.org/thesaurus/concept3570
http://vocabularies.unesco.org/thesaurus/concept17117
description RESUMEN : Home Credit Default Risk es un reto planteado por Kaggle que busca un modelo de aprendizaje automático que permita hacer predicciones del cumplimiento de pago de sus clientes al ser ésta una entidad financiera dedicada a la entrega de créditos. Se cuenta con 10 datasets y el modelo se selecciona de acuerdo con el mejor resultado de la curva ROC encontrada. Para el desarrollo del proyecto se decide trabajar con tres de los ocho datasets comenzando un preprocesamiento por separado, buscando nulos, correlaciones y agregaciones, para luego unirlas y obtener un solo dataset con el cual desarrollar el proyecto. Luego, se realiza un análisis exploratorio de las diferentes variables que representan el dataset y se realiza un preprocesamiento más profundo donde se buscan nulos, correlaciones, outliers y se realiza la transformación de las variables categóricas. En este punto, se nota un significativo desbalance de las clases de la variable objetivo, donde más del 80% de los datos se encuentran en la clase 0 (el cliente cumple con los pagos). Debido al desbalance existente en la variable TARGET, se realizan dos escenarios aplicando los modelos con la técnica de balanceo oversampling y luego con la técnica de balanceo undersampling. Por el tipo de problema trabajado, se decide trabajar con los modelos de Regresión Logística, Random Forest y Gradient Boosting. Los resultados obtenidos con la técnica oversampling, para el modelo Regresión Logística fue de alrededor del 70% con una curva ROC del 77%, mientras que con los modelos Random Forest y Gradient Boosting, se obtiene un resultado por encima del 90% para todas las métricas con ambos modelos y ambas curvas ROC con un 98%. Con la técnica de undersampling, los tres modelos arrojan resultados muy similares, donde las métricas muestran en promedio un 68% de acierto y las curvas ROC entre 75% y 76%. Se observa que ambas técnicas generan resultados acordes, incluso aplicando la metodología Stratified K Fold, con la única diferencia de que la técnica de undersampling baja el resultado obtenido en la curva ROC de los modelos Random Forest y Gradient Boosting.
publishDate 2022
dc.date.accessioned.none.fl_str_mv 2022-06-13T13:20:12Z
dc.date.available.none.fl_str_mv 2022-06-13T13:20:12Z
dc.date.issued.none.fl_str_mv 2022
dc.type.spa.fl_str_mv info:eu-repo/semantics/other
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.hasversion.spa.fl_str_mv info:eu-repo/semantics/draft
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_46ec
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/COther
dc.type.local.spa.fl_str_mv Tesis/Trabajo de grado - Monografía - Especialización
format http://purl.org/coar/resource_type/c_46ec
status_str draft
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/10495/29124
url http://hdl.handle.net/10495/29124
dc.language.iso.spa.fl_str_mv spa
language spa
dc.rights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/co/
dc.rights.accessrights.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.creativecommons.spa.fl_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/co/
http://purl.org/coar/access_right/c_abf2
https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.format.extent.spa.fl_str_mv 54
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.place.spa.fl_str_mv Medellín - Colombia
institution Universidad de Antioquia
bitstream.url.fl_str_mv https://bibliotecadigital.udea.edu.co/bitstream/10495/29124/1/CaroLaura_RodasLady_2022_Monograf%c3%adaHomeCredit.pdf
https://bibliotecadigital.udea.edu.co/bitstream/10495/29124/2/license_rdf
https://bibliotecadigital.udea.edu.co/bitstream/10495/29124/3/license.txt
bitstream.checksum.fl_str_mv 790a63b7be69346451f7d839a8d9fd11
e2060682c9c70d4d30c83c51448f4eed
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad de Antioquia
repository.mail.fl_str_mv andres.perez@udea.edu.co
_version_ 1812173105876959232
spelling Oviedo Carrascal, Efraín AlbertoCaro Puerta, Laura CristinaRodas Zuluaga, Lady Jhoana2022-06-13T13:20:12Z2022-06-13T13:20:12Z2022http://hdl.handle.net/10495/29124RESUMEN : Home Credit Default Risk es un reto planteado por Kaggle que busca un modelo de aprendizaje automático que permita hacer predicciones del cumplimiento de pago de sus clientes al ser ésta una entidad financiera dedicada a la entrega de créditos. Se cuenta con 10 datasets y el modelo se selecciona de acuerdo con el mejor resultado de la curva ROC encontrada. Para el desarrollo del proyecto se decide trabajar con tres de los ocho datasets comenzando un preprocesamiento por separado, buscando nulos, correlaciones y agregaciones, para luego unirlas y obtener un solo dataset con el cual desarrollar el proyecto. Luego, se realiza un análisis exploratorio de las diferentes variables que representan el dataset y se realiza un preprocesamiento más profundo donde se buscan nulos, correlaciones, outliers y se realiza la transformación de las variables categóricas. En este punto, se nota un significativo desbalance de las clases de la variable objetivo, donde más del 80% de los datos se encuentran en la clase 0 (el cliente cumple con los pagos). Debido al desbalance existente en la variable TARGET, se realizan dos escenarios aplicando los modelos con la técnica de balanceo oversampling y luego con la técnica de balanceo undersampling. Por el tipo de problema trabajado, se decide trabajar con los modelos de Regresión Logística, Random Forest y Gradient Boosting. Los resultados obtenidos con la técnica oversampling, para el modelo Regresión Logística fue de alrededor del 70% con una curva ROC del 77%, mientras que con los modelos Random Forest y Gradient Boosting, se obtiene un resultado por encima del 90% para todas las métricas con ambos modelos y ambas curvas ROC con un 98%. Con la técnica de undersampling, los tres modelos arrojan resultados muy similares, donde las métricas muestran en promedio un 68% de acierto y las curvas ROC entre 75% y 76%. Se observa que ambas técnicas generan resultados acordes, incluso aplicando la metodología Stratified K Fold, con la única diferencia de que la técnica de undersampling baja el resultado obtenido en la curva ROC de los modelos Random Forest y Gradient Boosting.54application/pdfspainfo:eu-repo/semantics/draftinfo:eu-repo/semantics/otherhttp://purl.org/coar/resource_type/c_46echttp://purl.org/redcol/resource_type/COtherTesis/Trabajo de grado - Monografía - Especializaciónhttp://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/co/http://purl.org/coar/access_right/c_abf2https://creativecommons.org/licenses/by-nc-sa/4.0/Modelos de aprendizaje supervisado para la clasificación de riesgo crediticio en la entidad financiera Home CreditMedellín - ColombiaCréditoCreditGestión de riesgosRisk managementAprendizaje automático (inteligencia artificial)Machine learningAprendizaje supervisado (aprendizaje automático)Supervised learning (Machine learning)Disposición a pagarWillingness to payhttp://aims.fao.org/aos/agrovoc/c_5e003e07http://vocabularies.unesco.org/thesaurus/concept3570http://vocabularies.unesco.org/thesaurus/concept17117https://github.com/LadyRodas/HomeCreditEspecialista en Analítica y Ciencia de DatosEspecializaciónFacultad de Ingeniería. Especialización en Analítica y Ciencia de DatosUniversidad de AntioquiaORIGINALCaroLaura_RodasLady_2022_MonografíaHomeCredit.pdfCaroLaura_RodasLady_2022_MonografíaHomeCredit.pdfTrabajo de grado de especializaciónapplication/pdf1362167https://bibliotecadigital.udea.edu.co/bitstream/10495/29124/1/CaroLaura_RodasLady_2022_Monograf%c3%adaHomeCredit.pdf790a63b7be69346451f7d839a8d9fd11MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81051https://bibliotecadigital.udea.edu.co/bitstream/10495/29124/2/license_rdfe2060682c9c70d4d30c83c51448f4eedMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://bibliotecadigital.udea.edu.co/bitstream/10495/29124/3/license.txt8a4605be74aa9ea9d79846c1fba20a33MD5310495/29124oai:bibliotecadigital.udea.edu.co:10495/291242022-06-13 08:20:13.238Repositorio Institucional Universidad de Antioquiaandres.perez@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=