Sistema predictivo de cancelaciones en las tarjetas de crédito basada en técnicas de Machine Learning

RESUMEN: El proyecto consistió en la creación de un sistema predictivo de las cancelaciones de las tarjetas de crédito de los clientes, en donde se probaron 15 modelos con diferentes algoritmos y diferentes configuraciones, el primer modelo es de tipo estadístico y se obtuvo con Regresión logística,...

Full description

Autores:
Mora Hernández, Sebastián
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2020
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/17428
Acceso en línea:
http://hdl.handle.net/10495/17428
Palabra clave:
Algoritmo
Algorithms
Análisis de datos
Data analysis
Base de datos
Databases
Crédito
Credit
Instituciones financieras
Financial institutions
Aprendizaje automático
Inteligencia de negocios
Tarjetas de crédito
http://vocabularies.unesco.org/thesaurus/concept2024
http://vocabularies.unesco.org/thesaurus/concept2214
http://vocabularies.unesco.org/thesaurus/concept501
http://vocabularies.unesco.org/thesaurus/concept3570
http://vocabularies.unesco.org/thesaurus/concept10861
Rights
openAccess
License
Atribución-NoComercial-SinDerivadas 2.5 Colombia
Description
Summary:RESUMEN: El proyecto consistió en la creación de un sistema predictivo de las cancelaciones de las tarjetas de crédito de los clientes, en donde se probaron 15 modelos con diferentes algoritmos y diferentes configuraciones, el primer modelo es de tipo estadístico y se obtuvo con Regresión logística, también se implementaron dos algoritmos de Machine Learning los cuales fueron árboles de decisión y Random Forest. Dado que se trabajó con una base de datos con clases desbalanceadas, se generaron diferentes modelos usando técnicas de balanceo de datos obteniendo mejores resultados respecto a los modelos sin utilizar técnicas de balanceo de datos. Las técnicas usadas fueron el método de SMOTE, método de sobre muestreo el cual crea muestras sintéticas de los datos haciendo que la clase minoritaria tenga el mismo número de muestras que la clase mayoritaria. La segunda técnica fue el método de NEARMISS, método de submuestreo que iguala la cantidad de muestras de la clase mayoritaria a la minoritaria. Los resultados obtenidos para el algoritmo de regresión logística fueron de un 79% de predicción en la cancelación de las tarjetas de crédito. Para el algoritmo de Random Forest se obtuvo un porcentaje de predicción del 84% y para el algoritmo de árboles de decisión se obtuvo un rendimiento del 74%. Una vez que se encontró el modelo que tenía mejor rendimiento, se procedió a integrar del modelo predictivo en un Dashboard de Power BI en donde se pudo observar el desempeño del modelo y, además, el poder aprovechar todas las funcionalidades de Power BI para que el cliente final pueda observar los resultados del modelo predictivo y análisis descriptivos de Python en Power BI.