Riesgo por incumplimiento de pagos en créditos de vivienda
RESUMEN : El objetivo del presente proyecto es predecir si un solicitante de crédito hipotecario incumplirá el pago de una o más cuotas del potencial crédito usando técnicas de Machine Learning. Se presenta un flujo experimental de distintos procesos y metodologías de analítica de datos para dar sol...
- Autores:
-
Tafur Hernández, Cristhian David
- Tipo de recurso:
- Tesis
- Fecha de publicación:
- 2022
- Institución:
- Universidad de Antioquia
- Repositorio:
- Repositorio UdeA
- Idioma:
- spa
- OAI Identifier:
- oai:bibliotecadigital.udea.edu.co:10495/28376
- Acceso en línea:
- http://hdl.handle.net/10495/28376
- Palabra clave:
- Aprendizaje automático (inteligencia artificial)
Machine learning
Análisis de regresión logística
Logistic regression analysis
Préstamos hipotecarios
Técnicas de predicción
Random forest classifier
Datos desbalanceados
- Rights
- openAccess
- License
- http://creativecommons.org/licenses/by/2.5/co/
Summary: | RESUMEN : El objetivo del presente proyecto es predecir si un solicitante de crédito hipotecario incumplirá el pago de una o más cuotas del potencial crédito usando técnicas de Machine Learning. Se presenta un flujo experimental de distintos procesos y metodologías de analítica de datos para dar solución al problema. El alcance de dicha experimentación llega hasta el uso de los algoritmos de regresión logística y árboles aleatorios de clasificación combinados con preprocesamientos específicos de los datos. La información para la ejecución del proyecto fue suministrada por “Home Credit” por medio de una convocatoria de competencia de predicción realizada en Kaggle en el año 2018. El problema de Machine Learning en este caso es uno de clasificación de dos clases, donde se busca identificar si un solicitante incumplirá o no el pago de una o más de las cuotas del potencial crédito. Como es usual en estos casos, el problema se caracteriza por tener clases desbalanceadas, donde la mayor parte de la información de la data de entrenamiento es de clientes que no han incumplido sus obligaciones crediticias y una mínima parte de quienes sí lo han hecho. El proceso experimental en el presente proyecto incluye la evaluación y selección de estrategias de remuestreo para datos desbalanceados, selección de hiperparámetros y opciones de reducción de dimensionalidad. El ejercicio iterativo usa las métricas de validación derivadas de la matriz de confusión para tomar las diferentes decisiones de elección y hacer seguimiento a las mejoras del modelo. Como resultado, el alcance de las experimentaciones realizadas en el presente proyecto no logran conseguir un modelo con desempeño satisfactorio. El mejor modelo desarrollado obtiene un accuracy de 75% con asertividad asimétrica entre las clases, logrando un F1 socre de 85% para la clase mayoritaria y de 28% para la minoritaria. |
---|