Modelos de machine learning para clasificar la cartera en un fondo de pensiones

El presente trabajo tiene como objetivo, a través de la aplicación de diferentes técnicas de Machine Learning y diagnósticos estadísticos e inferenciales, proponer modelos de análisis predictivos que permitan identificar, clasificar y procesar oportunamente cuáles son las empresas que no pagan los a...

Full description

Autores:
Gil Rubio, Ricardo
Tipo de recurso:
Masters Thesis
Fecha de publicación:
2022
Institución:
Universidad Santo Tomás
Repositorio:
Universidad Santo Tomás
Idioma:
spa
OAI Identifier:
oai:repository.usta.edu.co:11634/47294
Acceso en línea:
http://hdl.handle.net/11634/47294
Palabra clave:
Estadísticas
Pensionados
Trabajadores
Machine learning
regresión logística
máquinas de vectores de soporte,
árboles de decisión
redes neuronales
redes bayesianas
cartera
fondos de pensiones
, mora
Rights
openAccess
License
Atribución-NoComercial-SinDerivadas 2.5 Colombia
Description
Summary:El presente trabajo tiene como objetivo, a través de la aplicación de diferentes técnicas de Machine Learning y diagnósticos estadísticos e inferenciales, proponer modelos de análisis predictivos que permitan identificar, clasificar y procesar oportunamente cuáles son las empresas que no pagan los aportes de pensión a sus trabajadores afiliados al fondo de pensiones, y así implementar diferentes estrategias de cobro encaminadas a recuperar los dineros adeudados. En el proceso de evaluación de rendimiento de los modelos se logró evidenciar que la técnica Árboles de Decisión presenta excelentes resultados: no requirió estandarización de los datos al lograr un porcentaje de certeza excelente y clasificó de forma rápida y eficiente la variable predictora en una base de datos con un número adecuado de registros. Las demás técnicas mostraron buenos resultados en la clase tipo 0, 3 y 4 con porcentajes superiores al 96,8% tanto en exhaustividad como en medida-F, mientras se redujo el desempeño para las técnicas Regresión Logística 71,8% y Máquinas de Vectores de Soporte 69,2% en exhaustividad y Redes Bayesianas 18,5% en medida-F, lo anterior para la clase tipo 1. En la técnica Redes Bayesianas para la clase tipo 2 se redujo en 24,7% y 29,3% tanto en exhaustividad como en medida-F y Máquinas de Vectores de Soporte en 59,4% para medida-F. Lo anterior se abordo con el tratamiento de clases desbalanceadas y con los algoritmos de refuerzo o conjunto. El desequilibrio de clases es una problema bastante frecuente cuando se trabaja con datos reales; cuando muestras de una o de múltiples clases están sobre representadas en un conjunto de datos. Existen varios ámbitos en los que puede ocurrir, como el filtrado de spam, detección de cáncer, la identificación de fraude o la detección de enfermedades. Las estrategias para tratar el desequilibrio de clases incluyen el muestreo ascendente de la clase minoritaria, el muestreo descendente de la clase mayoritaria y la generación de muestras de entrenamiento sintéticas mediante el algoritmo más utilizado (SMOTE, por sus siglas en Inglés). Una vez evaluados los modelos con la segmentación propuesta se generaron las estrategias que permitieron identificar los mecanismos de gestión de cobro dependiente del tipo de deudor, esto va, desde una visita comercial, gestión de contact center para cobro preventivo o un extracto con información de pagos, para deudores de baja criticidad, pasando por una carta de cobro persuasivo, asesoramiento en los puntos de atención o mensajes de texto para deudores de criticidad media, hasta el proceso de cobro coactivo, embargos y demás medidas para los deudores que son renuentes al pago.