Aplicación de técnicas de Machine Learning para la predicción del riesgo de default de un cliente en una compañía de Filipinas
RESUMEN : En el presente trabajo se realizó un modelo predictivo cuya respuesta es la clasificación de que una vez una empresa financiera en filipinas, Home Credit, le otorgue un crédito hipotecario a un cliente, éste caiga en default (1) o no (0). En la herramienta Python, y basados en la metodolog...
- Autores:
-
Ramírez Quiceno, Manuela
Medina Báez, Andrés
- Tipo de recurso:
- Tesis
- Fecha de publicación:
- 2022
- Institución:
- Universidad de Antioquia
- Repositorio:
- Repositorio UdeA
- Idioma:
- spa
- OAI Identifier:
- oai:bibliotecadigital.udea.edu.co:10495/29065
- Acceso en línea:
- http://hdl.handle.net/10495/29065
- Palabra clave:
- Aprendizaje automático (inteligencia artificial)
Machine learning
Técnicas de predicción
Forecasting
Crédito
Credit
Gestión de riesgos
Risk management
http://aims.fao.org/aos/agrovoc/c_3041
http://aims.fao.org/aos/agrovoc/c_1954
http://aims.fao.org/aos/agrovoc/c_37934
- Rights
- openAccess
- License
- http://creativecommons.org/licenses/by-nc-sa/2.5/co/
Summary: | RESUMEN : En el presente trabajo se realizó un modelo predictivo cuya respuesta es la clasificación de que una vez una empresa financiera en filipinas, Home Credit, le otorgue un crédito hipotecario a un cliente, éste caiga en default (1) o no (0). En la herramienta Python, y basados en la metodología de trabajo CRISP-DM, inicialmente se realizó la exploración de los datos, conformado por 7 dataset y un total de 220 variables de orden sociodemográfico y del historial crediticio de cada cliente, tanto en Home Credit como en el sector externo. Posteriormente, se prepararon los datos mediante la eliminación de duplicados y de variables irrelevantes o redundantes, tratamiento de atípicos y de missings, codificación de variables categóricas, revisión de correlación, análisis univariable y bivariable, y balanceo de los datos debido a que las clases están desbalanceadas: Solo el 8% de 295.221 clientes pertenecen a la categoría 1, es decir, clientes que caen en default. Finalmente, empleando KBest de SKlearn, se seleccionan las 15 variables más relevantes a la hora de predecir el default del cliente, probando diferentes técnicas de Machine Learning como Decision Tree Classifier, Support Vector Machine, Naive Bayes, Random Forest Classifier, y Logistic Regression siendo este último el ganador para la métrica ROC_AUC de 0.71. La validez del modelo se logró ratificar mediante Cross Validation, con un KFold de 10, cuyos resultados para la métrica fueron de 0.70 y 0.0073 para la media y la desviación estándar respectivamente. Finalmente, en la evaluación final de la técnica ganadora con la data de prueba, el modelo predice los casos en default con un Recall del 64%. Los resultados muestran que el modelo obtenido a partir de los datos dispuestos tiene un desempeño aceptable a la hora de predecir el default de un cliente. |
---|