Santander customer satisfaction : un caso práctico de analítica productiva

RESUMEN : Se presenta a continuación un proyecto de machine learning dentro de la analítica predictiva aplicado a un problema real del sector financiero y bancario. En el año 2016 el banco Santander propuso a través de la plataforma Kaggle un reto analítico dirigido a todos aquellos apasionados por...

Full description

Autores:
Acevedo Álvarez, Andrés Felipe
Betancur Tellez, Sebastián
Tipo de recurso:
Tesis
Fecha de publicación:
2021
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/21866
Acceso en línea:
http://hdl.handle.net/10495/21866
https://github.com/sebastianbetancur1/Monografia_de_grado_UdeA
Palabra clave:
Análisis de datos
Data analysis
Instituciones financieras
Financial institutions
Procesamiento de datos
Data processing
Machine learning
Aprendizaje electrónico
http://aims.fao.org/aos/agrovoc/c_49834
http://vocabularies.unesco.org/thesaurus/concept2214
http://vocabularies.unesco.org/thesaurus/concept10861
http://vocabularies.unesco.org/thesaurus/concept522
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-sa/2.5/co/
Description
Summary:RESUMEN : Se presenta a continuación un proyecto de machine learning dentro de la analítica predictiva aplicado a un problema real del sector financiero y bancario. En el año 2016 el banco Santander propuso a través de la plataforma Kaggle un reto analítico dirigido a todos aquellos apasionados por la inteligencia artificial con el objetivo principal de resolver un problema de clasificación cuyo fin era identificar cuáles clientes se encontraban satisfechos y cuáles no con la entidad financiera. Se decide retomar este concurso en el que en su momento participaron más de 5.000 equipos a nivel mundial para a modo de reto académico y personal encontrar resultados sobresalientes a un problema complejo. Adicional, se presenta un proyecto con una característica muy común en el día a día de un científico de datos: una base de datos altamente desbalanceada, por lo que hace del reto un problema mucho más interesante a resolver, más aún cuando se enmarca en un contexto de experiencia y fidelización de clientes, temática que a hoy es foco organizacional en las principales organizaciones del mundo. Dentro de este proyecto se persigue unos resultados tanto de machine learning como de negocio sobresalientes. La métrica propuesta por el banco Santander para evaluar la calidad de los modelos fue el área bajo la curva ROC, y lo que se busca en este entregable es alcanzar un resultado mínimo del 70%. En cuanto a los datos, fueron suministrados directamente por la entidad bancaria de manera anonimizada a través de la plataforma Kaggle, con una muestra total de 76 mil clientes y más de 350 características relacionales entre banco y cliente. Aquí se tenían dos grandes retos, el primero era reducir la alta dimensionalidad que presentaba la base a través de técnicas como correlaciones, limpieza de datos y depuración de valores atípicos, y la segunda era trabajar de manera precisa las diversas técnicas para lograr enfrentarse a una base altamente desbalanceada. Para este entregable se plantearon 5 modelos de clasificación, en donde en cada iteración se buscó encontrar la mejor escogencia de variables, a través de un preprocesamiento detallado de los datos y la aplicación de diversas técnicas de balance. Para cada modelo se aplicó una búsqueda rigurosa de los mejores hiperparametros y se realizaron las validaciones necesarias para lograr las métricas esperadas. Finalmente, los resultados cumplieron con lo esperado, se selecciona como el modelo con la mejor métrica a una red neural que arroja un área bajo la curva ROC del 0.84 y se propone como entregable adicional que la entidad financiera utiliza cómo métrica de negocio el indicador NPS, el cual le permite medir la satisfacción de sus clientes y junto a los hallazgos de este modelo pueda tomar acciones proactivas que le apunten a la fidelización de sus clientes.