Predicción de gastos personales o familiares de los clientes de Bancolombia

RESUMEN : Para los bancos es de vital importancia poder anticiparse a la realidad económica de cada persona (y más cuando el mismo es cliente del propio banco), para así determinar planes de acción con ese cliente, planes que incluyen: ofertar créditos hipotecarios, créditos de consumo o tarjetas de...

Full description

Autores:
Rodriguez Muñoz, David Alberto
Tipo de recurso:
Tesis
Fecha de publicación:
2021
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/24636
Acceso en línea:
http://hdl.handle.net/10495/24636
Palabra clave:
Técnicas de predicción
Forecasting
Predicción
Datos Financieros
Machine learning
Gastos familiares
http://aims.fao.org/aos/agrovoc/c_3041
Rights
openAccess
License
http://creativecommons.org/publicdomain/zero/1.0/
id UDEA2_0ece8777787a0ad67ca00040d3f21eba
oai_identifier_str oai:bibliotecadigital.udea.edu.co:10495/24636
network_acronym_str UDEA2
network_name_str Repositorio UdeA
repository_id_str
dc.title.spa.fl_str_mv Predicción de gastos personales o familiares de los clientes de Bancolombia
dc.title.alternative.spa.fl_str_mv Prediction of personal or family expenses of Bancolombia's customers
title Predicción de gastos personales o familiares de los clientes de Bancolombia
spellingShingle Predicción de gastos personales o familiares de los clientes de Bancolombia
Técnicas de predicción
Forecasting
Predicción
Datos Financieros
Machine learning
Gastos familiares
http://aims.fao.org/aos/agrovoc/c_3041
title_short Predicción de gastos personales o familiares de los clientes de Bancolombia
title_full Predicción de gastos personales o familiares de los clientes de Bancolombia
title_fullStr Predicción de gastos personales o familiares de los clientes de Bancolombia
title_full_unstemmed Predicción de gastos personales o familiares de los clientes de Bancolombia
title_sort Predicción de gastos personales o familiares de los clientes de Bancolombia
dc.creator.fl_str_mv Rodriguez Muñoz, David Alberto
dc.contributor.advisor.none.fl_str_mv Oviedo Carrascal, Efraín Alberto
dc.contributor.author.none.fl_str_mv Rodriguez Muñoz, David Alberto
dc.subject.agrovoc.none.fl_str_mv Técnicas de predicción
Forecasting
topic Técnicas de predicción
Forecasting
Predicción
Datos Financieros
Machine learning
Gastos familiares
http://aims.fao.org/aos/agrovoc/c_3041
dc.subject.proposal.spa.fl_str_mv Predicción
Datos Financieros
Machine learning
Gastos familiares
dc.subject.agrovocuri.none.fl_str_mv http://aims.fao.org/aos/agrovoc/c_3041
description RESUMEN : Para los bancos es de vital importancia poder anticiparse a la realidad económica de cada persona (y más cuando el mismo es cliente del propio banco), para así determinar planes de acción con ese cliente, planes que incluyen: ofertar créditos hipotecarios, créditos de consumo o tarjetas de crédito, entre muchos otros productos que pueda ofrecer el banco. Este es el objetivo principal de esta monografía, hacer uso de un conjunto de datos demográficos y financieros de los clientes del banco Bancolombia, para diseñar un estimador basado en algoritmos de aprendizaje automático, que tengan la capacidad de adelantarse con un alto grado de predicción a los gastos personales que tendrá el cliente del banco en los próximos meses, con el fin de ayudar al banco en la creación de créditos y el ajuste de la capacidad de pago de cada cliente. Los datos con los que se cuenta para el diseño del algoritmo, son anonimizados, obtenidos mediante la plataforma kaggle, donde los mismos fueron publicados para la competencia Dataton BC 2020, estos datos describen: la vida financiera de cada cliente, si presenta algún tipo de crédito con el banco, las obligaciones financieras que pueda tener, si ha tenido cartera castigada o si el cliente ha estado mucho tiempo en mora, entre otros (además de datos demográficos). Las estrategias utilizadas para solucionar el problema mediante la creación del diseño más óptimo posible fueron: trabajar fuertemente sobre diferentes transformaciones de los datos, adicionar y eliminar varios datos o utilizarlos de una manera diferente (muestras del conjunto inicial), realizar feature engineering para crear características que permitan la disminución de la dimensionalidad del conjunto de datos. Durante cada tratamiento sobre el conjunto de datos, se utilizan diseños sencillos de algoritmos de aprendizaje de máquina para analizar los efectos que estos cambios tienen sobre el modelo en cuestión. El tratamiento de los datos no fue sencillo, se encontraron las siguientes observaciones; hay diferentes valores nulos sobre los datos (tanto numéricos como categóricos), la dispersión de los datos numéricos fue un tema importante, ya que hubo características cuya naturaleza no es propia para todos los individuos del banco (si no para un sector particular), los datos se encontraban desactualizados, analizando las variables categóricas se encuentra la existencia de un sesgo poblacional fuerte, por último, las características no presentaban la correlación necesaria para describir la variable objetivo. De todos los modelos diseñados, el mejor resultado obtenido fue el Gradient Boost Tree con una profundidad máxima de 15 y 50 árboles estimadores (rendimiento en R2 de 13.8% para entrenamiento y 12.4% para prueba, y, MAPE 111 para entrenamiento y 109 para prueba), cabe resaltar que es el modelo con mejores resultados al evaluar con los datos de prueba, existen otros modelos que logran un rendimiento más alto en el conjunto de entrenamiento, pero disminuye en el conjunto de prueba. Estos resultados podrían mejorarse aplicando las sugerencias presentadas para trabajos futuros.
publishDate 2021
dc.date.accessioned.none.fl_str_mv 2021-12-07T16:07:38Z
dc.date.available.none.fl_str_mv 2021-12-07T16:07:38Z
dc.date.issued.none.fl_str_mv 2021
dc.type.spa.fl_str_mv info:eu-repo/semantics/other
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.hasversion.spa.fl_str_mv info:eu-repo/semantics/draft
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_46ec
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/COther
dc.type.local.spa.fl_str_mv Tesis/Trabajo de grado - Monografía - Especialización
format http://purl.org/coar/resource_type/c_46ec
status_str draft
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/10495/24636
url http://hdl.handle.net/10495/24636
dc.language.iso.spa.fl_str_mv spa
language spa
dc.rights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/publicdomain/zero/1.0/
dc.rights.accessrights.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.creativecommons.spa.fl_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/publicdomain/zero/1.0/
http://purl.org/coar/access_right/c_abf2
https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.format.extent.spa.fl_str_mv 39
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.place.spa.fl_str_mv Medellín
institution Universidad de Antioquia
bitstream.url.fl_str_mv http://bibliotecadigital.udea.edu.co/bitstream/10495/24636/6/license_rdf
http://bibliotecadigital.udea.edu.co/bitstream/10495/24636/7/license.txt
http://bibliotecadigital.udea.edu.co/bitstream/10495/24636/5/RodriguezDavid_2021_PrediccionDatosFinancierosGastoFamiliar.pdf
bitstream.checksum.fl_str_mv fd0548b8694973befb689f3e7a707f1d
8a4605be74aa9ea9d79846c1fba20a33
13acda3b06da6b672f091f30d3940580
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad de Antioquia
repository.mail.fl_str_mv andres.perez@udea.edu.co
_version_ 1805390177371160576
spelling Oviedo Carrascal, Efraín AlbertoRodriguez Muñoz, David Alberto2021-12-07T16:07:38Z2021-12-07T16:07:38Z2021http://hdl.handle.net/10495/24636RESUMEN : Para los bancos es de vital importancia poder anticiparse a la realidad económica de cada persona (y más cuando el mismo es cliente del propio banco), para así determinar planes de acción con ese cliente, planes que incluyen: ofertar créditos hipotecarios, créditos de consumo o tarjetas de crédito, entre muchos otros productos que pueda ofrecer el banco. Este es el objetivo principal de esta monografía, hacer uso de un conjunto de datos demográficos y financieros de los clientes del banco Bancolombia, para diseñar un estimador basado en algoritmos de aprendizaje automático, que tengan la capacidad de adelantarse con un alto grado de predicción a los gastos personales que tendrá el cliente del banco en los próximos meses, con el fin de ayudar al banco en la creación de créditos y el ajuste de la capacidad de pago de cada cliente. Los datos con los que se cuenta para el diseño del algoritmo, son anonimizados, obtenidos mediante la plataforma kaggle, donde los mismos fueron publicados para la competencia Dataton BC 2020, estos datos describen: la vida financiera de cada cliente, si presenta algún tipo de crédito con el banco, las obligaciones financieras que pueda tener, si ha tenido cartera castigada o si el cliente ha estado mucho tiempo en mora, entre otros (además de datos demográficos). Las estrategias utilizadas para solucionar el problema mediante la creación del diseño más óptimo posible fueron: trabajar fuertemente sobre diferentes transformaciones de los datos, adicionar y eliminar varios datos o utilizarlos de una manera diferente (muestras del conjunto inicial), realizar feature engineering para crear características que permitan la disminución de la dimensionalidad del conjunto de datos. Durante cada tratamiento sobre el conjunto de datos, se utilizan diseños sencillos de algoritmos de aprendizaje de máquina para analizar los efectos que estos cambios tienen sobre el modelo en cuestión. El tratamiento de los datos no fue sencillo, se encontraron las siguientes observaciones; hay diferentes valores nulos sobre los datos (tanto numéricos como categóricos), la dispersión de los datos numéricos fue un tema importante, ya que hubo características cuya naturaleza no es propia para todos los individuos del banco (si no para un sector particular), los datos se encontraban desactualizados, analizando las variables categóricas se encuentra la existencia de un sesgo poblacional fuerte, por último, las características no presentaban la correlación necesaria para describir la variable objetivo. De todos los modelos diseñados, el mejor resultado obtenido fue el Gradient Boost Tree con una profundidad máxima de 15 y 50 árboles estimadores (rendimiento en R2 de 13.8% para entrenamiento y 12.4% para prueba, y, MAPE 111 para entrenamiento y 109 para prueba), cabe resaltar que es el modelo con mejores resultados al evaluar con los datos de prueba, existen otros modelos que logran un rendimiento más alto en el conjunto de entrenamiento, pero disminuye en el conjunto de prueba. Estos resultados podrían mejorarse aplicando las sugerencias presentadas para trabajos futuros.39application/pdfspainfo:eu-repo/semantics/draftinfo:eu-repo/semantics/otherhttp://purl.org/coar/resource_type/c_46echttp://purl.org/redcol/resource_type/COtherTesis/Trabajo de grado - Monografía - Especializaciónhttp://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/publicdomain/zero/1.0/http://purl.org/coar/access_right/c_abf2https://creativecommons.org/licenses/by-nc-sa/4.0/Predicción de gastos personales o familiares de los clientes de BancolombiaPrediction of personal or family expenses of Bancolombia's customersMedellínTécnicas de predicciónForecastingPredicciónDatos FinancierosMachine learningGastos familiareshttp://aims.fao.org/aos/agrovoc/c_3041Especialista en Analítica y Ciencia de DatosEspecializaciónFacultad de Ingeniería. Especialización en Analítica y Ciencia de DatosUniversidad de AntioquiaCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8712http://bibliotecadigital.udea.edu.co/bitstream/10495/24636/6/license_rdffd0548b8694973befb689f3e7a707f1dMD56LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://bibliotecadigital.udea.edu.co/bitstream/10495/24636/7/license.txt8a4605be74aa9ea9d79846c1fba20a33MD57ORIGINALRodriguezDavid_2021_PrediccionDatosFinancierosGastoFamiliar.pdfRodriguezDavid_2021_PrediccionDatosFinancierosGastoFamiliar.pdfTrabajo de grado de especializaciónapplication/pdf578446http://bibliotecadigital.udea.edu.co/bitstream/10495/24636/5/RodriguezDavid_2021_PrediccionDatosFinancierosGastoFamiliar.pdf13acda3b06da6b672f091f30d3940580MD5510495/24636oai:bibliotecadigital.udea.edu.co:10495/246362021-12-07 11:08:02.842Repositorio Institucional Universidad de Antioquiaandres.perez@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=