Aplicación de técnicas de Machine Learning para la predicción del riesgo de default de un cliente en una compañía de Filipinas

RESUMEN : En el presente trabajo se realizó un modelo predictivo cuya respuesta es la clasificación de que una vez una empresa financiera en filipinas, Home Credit, le otorgue un crédito hipotecario a un cliente, éste caiga en default (1) o no (0). En la herramienta Python, y basados en la metodolog...

Full description

Autores:
Ramírez Quiceno, Manuela
Medina Báez, Andrés
Tipo de recurso:
Tesis
Fecha de publicación:
2022
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/29065
Acceso en línea:
http://hdl.handle.net/10495/29065
Palabra clave:
Aprendizaje automático (inteligencia artificial)
Machine learning
Técnicas de predicción
Forecasting
Crédito
Credit
Gestión de riesgos
Risk management
http://aims.fao.org/aos/agrovoc/c_3041
http://aims.fao.org/aos/agrovoc/c_1954
http://aims.fao.org/aos/agrovoc/c_37934
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-sa/2.5/co/
Description
Summary:RESUMEN : En el presente trabajo se realizó un modelo predictivo cuya respuesta es la clasificación de que una vez una empresa financiera en filipinas, Home Credit, le otorgue un crédito hipotecario a un cliente, éste caiga en default (1) o no (0). En la herramienta Python, y basados en la metodología de trabajo CRISP-DM, inicialmente se realizó la exploración de los datos, conformado por 7 dataset y un total de 220 variables de orden sociodemográfico y del historial crediticio de cada cliente, tanto en Home Credit como en el sector externo. Posteriormente, se prepararon los datos mediante la eliminación de duplicados y de variables irrelevantes o redundantes, tratamiento de atípicos y de missings, codificación de variables categóricas, revisión de correlación, análisis univariable y bivariable, y balanceo de los datos debido a que las clases están desbalanceadas: Solo el 8% de 295.221 clientes pertenecen a la categoría 1, es decir, clientes que caen en default. Finalmente, empleando KBest de SKlearn, se seleccionan las 15 variables más relevantes a la hora de predecir el default del cliente, probando diferentes técnicas de Machine Learning como Decision Tree Classifier, Support Vector Machine, Naive Bayes, Random Forest Classifier, y Logistic Regression siendo este último el ganador para la métrica ROC_AUC de 0.71. La validez del modelo se logró ratificar mediante Cross Validation, con un KFold de 10, cuyos resultados para la métrica fueron de 0.70 y 0.0073 para la media y la desviación estándar respectivamente. Finalmente, en la evaluación final de la técnica ganadora con la data de prueba, el modelo predice los casos en default con un Recall del 64%. Los resultados muestran que el modelo obtenido a partir de los datos dispuestos tiene un desempeño aceptable a la hora de predecir el default de un cliente.