Predicción de gastos personales o familiares de los clientes de Bancolombia

RESUMEN : Para los bancos es de vital importancia poder anticiparse a la realidad económica de cada persona (y más cuando el mismo es cliente del propio banco), para así determinar planes de acción con ese cliente, planes que incluyen: ofertar créditos hipotecarios, créditos de consumo o tarjetas de...

Full description

Autores:
Rodriguez Muñoz, David Alberto
Tipo de recurso:
Tesis
Fecha de publicación:
2021
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/24636
Acceso en línea:
http://hdl.handle.net/10495/24636
Palabra clave:
Técnicas de predicción
Forecasting
Predicción
Datos Financieros
Machine learning
Gastos familiares
http://aims.fao.org/aos/agrovoc/c_3041
Rights
openAccess
License
http://creativecommons.org/publicdomain/zero/1.0/
Description
Summary:RESUMEN : Para los bancos es de vital importancia poder anticiparse a la realidad económica de cada persona (y más cuando el mismo es cliente del propio banco), para así determinar planes de acción con ese cliente, planes que incluyen: ofertar créditos hipotecarios, créditos de consumo o tarjetas de crédito, entre muchos otros productos que pueda ofrecer el banco. Este es el objetivo principal de esta monografía, hacer uso de un conjunto de datos demográficos y financieros de los clientes del banco Bancolombia, para diseñar un estimador basado en algoritmos de aprendizaje automático, que tengan la capacidad de adelantarse con un alto grado de predicción a los gastos personales que tendrá el cliente del banco en los próximos meses, con el fin de ayudar al banco en la creación de créditos y el ajuste de la capacidad de pago de cada cliente. Los datos con los que se cuenta para el diseño del algoritmo, son anonimizados, obtenidos mediante la plataforma kaggle, donde los mismos fueron publicados para la competencia Dataton BC 2020, estos datos describen: la vida financiera de cada cliente, si presenta algún tipo de crédito con el banco, las obligaciones financieras que pueda tener, si ha tenido cartera castigada o si el cliente ha estado mucho tiempo en mora, entre otros (además de datos demográficos). Las estrategias utilizadas para solucionar el problema mediante la creación del diseño más óptimo posible fueron: trabajar fuertemente sobre diferentes transformaciones de los datos, adicionar y eliminar varios datos o utilizarlos de una manera diferente (muestras del conjunto inicial), realizar feature engineering para crear características que permitan la disminución de la dimensionalidad del conjunto de datos. Durante cada tratamiento sobre el conjunto de datos, se utilizan diseños sencillos de algoritmos de aprendizaje de máquina para analizar los efectos que estos cambios tienen sobre el modelo en cuestión. El tratamiento de los datos no fue sencillo, se encontraron las siguientes observaciones; hay diferentes valores nulos sobre los datos (tanto numéricos como categóricos), la dispersión de los datos numéricos fue un tema importante, ya que hubo características cuya naturaleza no es propia para todos los individuos del banco (si no para un sector particular), los datos se encontraban desactualizados, analizando las variables categóricas se encuentra la existencia de un sesgo poblacional fuerte, por último, las características no presentaban la correlación necesaria para describir la variable objetivo. De todos los modelos diseñados, el mejor resultado obtenido fue el Gradient Boost Tree con una profundidad máxima de 15 y 50 árboles estimadores (rendimiento en R2 de 13.8% para entrenamiento y 12.4% para prueba, y, MAPE 111 para entrenamiento y 109 para prueba), cabe resaltar que es el modelo con mejores resultados al evaluar con los datos de prueba, existen otros modelos que logran un rendimiento más alto en el conjunto de entrenamiento, pero disminuye en el conjunto de prueba. Estos resultados podrían mejorarse aplicando las sugerencias presentadas para trabajos futuros.