Riesgo por incumplimiento de pagos en créditos de vivienda

RESUMEN : El objetivo del presente proyecto es predecir si un solicitante de crédito hipotecario incumplirá el pago de una o más cuotas del potencial crédito usando técnicas de Machine Learning. Se presenta un flujo experimental de distintos procesos y metodologías de analítica de datos para dar sol...

Full description

Autores:
Tafur Hernández, Cristhian David
Tipo de recurso:
Tesis
Fecha de publicación:
2022
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/28376
Acceso en línea:
http://hdl.handle.net/10495/28376
Palabra clave:
Aprendizaje automático (inteligencia artificial)
Machine learning
Análisis de regresión logística
Logistic regression analysis
Préstamos hipotecarios
Técnicas de predicción
Random forest classifier
Datos desbalanceados
Rights
openAccess
License
http://creativecommons.org/licenses/by/2.5/co/
Description
Summary:RESUMEN : El objetivo del presente proyecto es predecir si un solicitante de crédito hipotecario incumplirá el pago de una o más cuotas del potencial crédito usando técnicas de Machine Learning. Se presenta un flujo experimental de distintos procesos y metodologías de analítica de datos para dar solución al problema. El alcance de dicha experimentación llega hasta el uso de los algoritmos de regresión logística y árboles aleatorios de clasificación combinados con preprocesamientos específicos de los datos. La información para la ejecución del proyecto fue suministrada por “Home Credit” por medio de una convocatoria de competencia de predicción realizada en Kaggle en el año 2018. El problema de Machine Learning en este caso es uno de clasificación de dos clases, donde se busca identificar si un solicitante incumplirá o no el pago de una o más de las cuotas del potencial crédito. Como es usual en estos casos, el problema se caracteriza por tener clases desbalanceadas, donde la mayor parte de la información de la data de entrenamiento es de clientes que no han incumplido sus obligaciones crediticias y una mínima parte de quienes sí lo han hecho. El proceso experimental en el presente proyecto incluye la evaluación y selección de estrategias de remuestreo para datos desbalanceados, selección de hiperparámetros y opciones de reducción de dimensionalidad. El ejercicio iterativo usa las métricas de validación derivadas de la matriz de confusión para tomar las diferentes decisiones de elección y hacer seguimiento a las mejoras del modelo. Como resultado, el alcance de las experimentaciones realizadas en el presente proyecto no logran conseguir un modelo con desempeño satisfactorio. El mejor modelo desarrollado obtiene un accuracy de 75% con asertividad asimétrica entre las clases, logrando un F1 socre de 85% para la clase mayoritaria y de 28% para la minoritaria.