Modelos de aprendizaje supervisado para la clasificación de riesgo crediticio en la entidad financiera Home Credit

RESUMEN : Home Credit Default Risk es un reto planteado por Kaggle que busca un modelo de aprendizaje automático que permita hacer predicciones del cumplimiento de pago de sus clientes al ser ésta una entidad financiera dedicada a la entrega de créditos. Se cuenta con 10 datasets y el modelo se sele...

Full description

Autores:
Caro Puerta, Laura Cristina
Rodas Zuluaga, Lady Jhoana
Tipo de recurso:
Tesis
Fecha de publicación:
2022
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/29124
Acceso en línea:
http://hdl.handle.net/10495/29124
Palabra clave:
Crédito
Credit
Gestión de riesgos
Risk management
Aprendizaje automático (inteligencia artificial)
Machine learning
Aprendizaje supervisado (aprendizaje automático)
Supervised learning (Machine learning)
Disposición a pagar
Willingness to pay
http://aims.fao.org/aos/agrovoc/c_5e003e07
http://vocabularies.unesco.org/thesaurus/concept3570
http://vocabularies.unesco.org/thesaurus/concept17117
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-sa/2.5/co/
Description
Summary:RESUMEN : Home Credit Default Risk es un reto planteado por Kaggle que busca un modelo de aprendizaje automático que permita hacer predicciones del cumplimiento de pago de sus clientes al ser ésta una entidad financiera dedicada a la entrega de créditos. Se cuenta con 10 datasets y el modelo se selecciona de acuerdo con el mejor resultado de la curva ROC encontrada. Para el desarrollo del proyecto se decide trabajar con tres de los ocho datasets comenzando un preprocesamiento por separado, buscando nulos, correlaciones y agregaciones, para luego unirlas y obtener un solo dataset con el cual desarrollar el proyecto. Luego, se realiza un análisis exploratorio de las diferentes variables que representan el dataset y se realiza un preprocesamiento más profundo donde se buscan nulos, correlaciones, outliers y se realiza la transformación de las variables categóricas. En este punto, se nota un significativo desbalance de las clases de la variable objetivo, donde más del 80% de los datos se encuentran en la clase 0 (el cliente cumple con los pagos). Debido al desbalance existente en la variable TARGET, se realizan dos escenarios aplicando los modelos con la técnica de balanceo oversampling y luego con la técnica de balanceo undersampling. Por el tipo de problema trabajado, se decide trabajar con los modelos de Regresión Logística, Random Forest y Gradient Boosting. Los resultados obtenidos con la técnica oversampling, para el modelo Regresión Logística fue de alrededor del 70% con una curva ROC del 77%, mientras que con los modelos Random Forest y Gradient Boosting, se obtiene un resultado por encima del 90% para todas las métricas con ambos modelos y ambas curvas ROC con un 98%. Con la técnica de undersampling, los tres modelos arrojan resultados muy similares, donde las métricas muestran en promedio un 68% de acierto y las curvas ROC entre 75% y 76%. Se observa que ambas técnicas generan resultados acordes, incluso aplicando la metodología Stratified K Fold, con la única diferencia de que la técnica de undersampling baja el resultado obtenido en la curva ROC de los modelos Random Forest y Gradient Boosting.