Predicción de gastos personales o familiares de los clientes de Bancolombia
RESUMEN : Para los bancos es de vital importancia poder anticiparse a la realidad económica de cada persona (y más cuando el mismo es cliente del propio banco), para así determinar planes de acción con ese cliente, planes que incluyen: ofertar créditos hipotecarios, créditos de consumo o tarjetas de...
- Autores:
-
Rodriguez Muñoz, David Alberto
- Tipo de recurso:
- Tesis
- Fecha de publicación:
- 2021
- Institución:
- Universidad de Antioquia
- Repositorio:
- Repositorio UdeA
- Idioma:
- spa
- OAI Identifier:
- oai:bibliotecadigital.udea.edu.co:10495/24636
- Acceso en línea:
- http://hdl.handle.net/10495/24636
- Palabra clave:
- Técnicas de predicción
Forecasting
Predicción
Datos Financieros
Machine learning
Gastos familiares
http://aims.fao.org/aos/agrovoc/c_3041
- Rights
- openAccess
- License
- http://creativecommons.org/publicdomain/zero/1.0/
id |
UDEA2_0ece8777787a0ad67ca00040d3f21eba |
---|---|
oai_identifier_str |
oai:bibliotecadigital.udea.edu.co:10495/24636 |
network_acronym_str |
UDEA2 |
network_name_str |
Repositorio UdeA |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Predicción de gastos personales o familiares de los clientes de Bancolombia |
dc.title.alternative.spa.fl_str_mv |
Prediction of personal or family expenses of Bancolombia's customers |
title |
Predicción de gastos personales o familiares de los clientes de Bancolombia |
spellingShingle |
Predicción de gastos personales o familiares de los clientes de Bancolombia Técnicas de predicción Forecasting Predicción Datos Financieros Machine learning Gastos familiares http://aims.fao.org/aos/agrovoc/c_3041 |
title_short |
Predicción de gastos personales o familiares de los clientes de Bancolombia |
title_full |
Predicción de gastos personales o familiares de los clientes de Bancolombia |
title_fullStr |
Predicción de gastos personales o familiares de los clientes de Bancolombia |
title_full_unstemmed |
Predicción de gastos personales o familiares de los clientes de Bancolombia |
title_sort |
Predicción de gastos personales o familiares de los clientes de Bancolombia |
dc.creator.fl_str_mv |
Rodriguez Muñoz, David Alberto |
dc.contributor.advisor.none.fl_str_mv |
Oviedo Carrascal, Efraín Alberto |
dc.contributor.author.none.fl_str_mv |
Rodriguez Muñoz, David Alberto |
dc.subject.agrovoc.none.fl_str_mv |
Técnicas de predicción Forecasting |
topic |
Técnicas de predicción Forecasting Predicción Datos Financieros Machine learning Gastos familiares http://aims.fao.org/aos/agrovoc/c_3041 |
dc.subject.proposal.spa.fl_str_mv |
Predicción Datos Financieros Machine learning Gastos familiares |
dc.subject.agrovocuri.none.fl_str_mv |
http://aims.fao.org/aos/agrovoc/c_3041 |
description |
RESUMEN : Para los bancos es de vital importancia poder anticiparse a la realidad económica de cada persona (y más cuando el mismo es cliente del propio banco), para así determinar planes de acción con ese cliente, planes que incluyen: ofertar créditos hipotecarios, créditos de consumo o tarjetas de crédito, entre muchos otros productos que pueda ofrecer el banco. Este es el objetivo principal de esta monografía, hacer uso de un conjunto de datos demográficos y financieros de los clientes del banco Bancolombia, para diseñar un estimador basado en algoritmos de aprendizaje automático, que tengan la capacidad de adelantarse con un alto grado de predicción a los gastos personales que tendrá el cliente del banco en los próximos meses, con el fin de ayudar al banco en la creación de créditos y el ajuste de la capacidad de pago de cada cliente. Los datos con los que se cuenta para el diseño del algoritmo, son anonimizados, obtenidos mediante la plataforma kaggle, donde los mismos fueron publicados para la competencia Dataton BC 2020, estos datos describen: la vida financiera de cada cliente, si presenta algún tipo de crédito con el banco, las obligaciones financieras que pueda tener, si ha tenido cartera castigada o si el cliente ha estado mucho tiempo en mora, entre otros (además de datos demográficos). Las estrategias utilizadas para solucionar el problema mediante la creación del diseño más óptimo posible fueron: trabajar fuertemente sobre diferentes transformaciones de los datos, adicionar y eliminar varios datos o utilizarlos de una manera diferente (muestras del conjunto inicial), realizar feature engineering para crear características que permitan la disminución de la dimensionalidad del conjunto de datos. Durante cada tratamiento sobre el conjunto de datos, se utilizan diseños sencillos de algoritmos de aprendizaje de máquina para analizar los efectos que estos cambios tienen sobre el modelo en cuestión. El tratamiento de los datos no fue sencillo, se encontraron las siguientes observaciones; hay diferentes valores nulos sobre los datos (tanto numéricos como categóricos), la dispersión de los datos numéricos fue un tema importante, ya que hubo características cuya naturaleza no es propia para todos los individuos del banco (si no para un sector particular), los datos se encontraban desactualizados, analizando las variables categóricas se encuentra la existencia de un sesgo poblacional fuerte, por último, las características no presentaban la correlación necesaria para describir la variable objetivo. De todos los modelos diseñados, el mejor resultado obtenido fue el Gradient Boost Tree con una profundidad máxima de 15 y 50 árboles estimadores (rendimiento en R2 de 13.8% para entrenamiento y 12.4% para prueba, y, MAPE 111 para entrenamiento y 109 para prueba), cabe resaltar que es el modelo con mejores resultados al evaluar con los datos de prueba, existen otros modelos que logran un rendimiento más alto en el conjunto de entrenamiento, pero disminuye en el conjunto de prueba. Estos resultados podrían mejorarse aplicando las sugerencias presentadas para trabajos futuros. |
publishDate |
2021 |
dc.date.accessioned.none.fl_str_mv |
2021-12-07T16:07:38Z |
dc.date.available.none.fl_str_mv |
2021-12-07T16:07:38Z |
dc.date.issued.none.fl_str_mv |
2021 |
dc.type.spa.fl_str_mv |
info:eu-repo/semantics/other |
dc.type.coarversion.fl_str_mv |
http://purl.org/coar/version/c_b1a7d7d4d402bcce |
dc.type.hasversion.spa.fl_str_mv |
info:eu-repo/semantics/draft |
dc.type.coar.spa.fl_str_mv |
http://purl.org/coar/resource_type/c_46ec |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/COther |
dc.type.local.spa.fl_str_mv |
Tesis/Trabajo de grado - Monografía - Especialización |
format |
http://purl.org/coar/resource_type/c_46ec |
status_str |
draft |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/10495/24636 |
url |
http://hdl.handle.net/10495/24636 |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.rights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/publicdomain/zero/1.0/ |
dc.rights.accessrights.spa.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.creativecommons.spa.fl_str_mv |
https://creativecommons.org/licenses/by-nc-sa/4.0/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/publicdomain/zero/1.0/ http://purl.org/coar/access_right/c_abf2 https://creativecommons.org/licenses/by-nc-sa/4.0/ |
dc.format.extent.spa.fl_str_mv |
39 |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
dc.publisher.place.spa.fl_str_mv |
Medellín |
institution |
Universidad de Antioquia |
bitstream.url.fl_str_mv |
http://bibliotecadigital.udea.edu.co/bitstream/10495/24636/6/license_rdf http://bibliotecadigital.udea.edu.co/bitstream/10495/24636/7/license.txt http://bibliotecadigital.udea.edu.co/bitstream/10495/24636/5/RodriguezDavid_2021_PrediccionDatosFinancierosGastoFamiliar.pdf |
bitstream.checksum.fl_str_mv |
fd0548b8694973befb689f3e7a707f1d 8a4605be74aa9ea9d79846c1fba20a33 13acda3b06da6b672f091f30d3940580 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional Universidad de Antioquia |
repository.mail.fl_str_mv |
andres.perez@udea.edu.co |
_version_ |
1812173135728869376 |
spelling |
Oviedo Carrascal, Efraín AlbertoRodriguez Muñoz, David Alberto2021-12-07T16:07:38Z2021-12-07T16:07:38Z2021http://hdl.handle.net/10495/24636RESUMEN : Para los bancos es de vital importancia poder anticiparse a la realidad económica de cada persona (y más cuando el mismo es cliente del propio banco), para así determinar planes de acción con ese cliente, planes que incluyen: ofertar créditos hipotecarios, créditos de consumo o tarjetas de crédito, entre muchos otros productos que pueda ofrecer el banco. Este es el objetivo principal de esta monografía, hacer uso de un conjunto de datos demográficos y financieros de los clientes del banco Bancolombia, para diseñar un estimador basado en algoritmos de aprendizaje automático, que tengan la capacidad de adelantarse con un alto grado de predicción a los gastos personales que tendrá el cliente del banco en los próximos meses, con el fin de ayudar al banco en la creación de créditos y el ajuste de la capacidad de pago de cada cliente. Los datos con los que se cuenta para el diseño del algoritmo, son anonimizados, obtenidos mediante la plataforma kaggle, donde los mismos fueron publicados para la competencia Dataton BC 2020, estos datos describen: la vida financiera de cada cliente, si presenta algún tipo de crédito con el banco, las obligaciones financieras que pueda tener, si ha tenido cartera castigada o si el cliente ha estado mucho tiempo en mora, entre otros (además de datos demográficos). Las estrategias utilizadas para solucionar el problema mediante la creación del diseño más óptimo posible fueron: trabajar fuertemente sobre diferentes transformaciones de los datos, adicionar y eliminar varios datos o utilizarlos de una manera diferente (muestras del conjunto inicial), realizar feature engineering para crear características que permitan la disminución de la dimensionalidad del conjunto de datos. Durante cada tratamiento sobre el conjunto de datos, se utilizan diseños sencillos de algoritmos de aprendizaje de máquina para analizar los efectos que estos cambios tienen sobre el modelo en cuestión. El tratamiento de los datos no fue sencillo, se encontraron las siguientes observaciones; hay diferentes valores nulos sobre los datos (tanto numéricos como categóricos), la dispersión de los datos numéricos fue un tema importante, ya que hubo características cuya naturaleza no es propia para todos los individuos del banco (si no para un sector particular), los datos se encontraban desactualizados, analizando las variables categóricas se encuentra la existencia de un sesgo poblacional fuerte, por último, las características no presentaban la correlación necesaria para describir la variable objetivo. De todos los modelos diseñados, el mejor resultado obtenido fue el Gradient Boost Tree con una profundidad máxima de 15 y 50 árboles estimadores (rendimiento en R2 de 13.8% para entrenamiento y 12.4% para prueba, y, MAPE 111 para entrenamiento y 109 para prueba), cabe resaltar que es el modelo con mejores resultados al evaluar con los datos de prueba, existen otros modelos que logran un rendimiento más alto en el conjunto de entrenamiento, pero disminuye en el conjunto de prueba. Estos resultados podrían mejorarse aplicando las sugerencias presentadas para trabajos futuros.39application/pdfspainfo:eu-repo/semantics/draftinfo:eu-repo/semantics/otherhttp://purl.org/coar/resource_type/c_46echttp://purl.org/redcol/resource_type/COtherTesis/Trabajo de grado - Monografía - Especializaciónhttp://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/publicdomain/zero/1.0/http://purl.org/coar/access_right/c_abf2https://creativecommons.org/licenses/by-nc-sa/4.0/Predicción de gastos personales o familiares de los clientes de BancolombiaPrediction of personal or family expenses of Bancolombia's customersMedellínTécnicas de predicciónForecastingPredicciónDatos FinancierosMachine learningGastos familiareshttp://aims.fao.org/aos/agrovoc/c_3041Especialista en Analítica y Ciencia de DatosEspecializaciónFacultad de Ingeniería. Especialización en Analítica y Ciencia de DatosUniversidad de AntioquiaCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8712http://bibliotecadigital.udea.edu.co/bitstream/10495/24636/6/license_rdffd0548b8694973befb689f3e7a707f1dMD56LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://bibliotecadigital.udea.edu.co/bitstream/10495/24636/7/license.txt8a4605be74aa9ea9d79846c1fba20a33MD57ORIGINALRodriguezDavid_2021_PrediccionDatosFinancierosGastoFamiliar.pdfRodriguezDavid_2021_PrediccionDatosFinancierosGastoFamiliar.pdfTrabajo de grado de especializaciónapplication/pdf578446http://bibliotecadigital.udea.edu.co/bitstream/10495/24636/5/RodriguezDavid_2021_PrediccionDatosFinancierosGastoFamiliar.pdf13acda3b06da6b672f091f30d3940580MD5510495/24636oai:bibliotecadigital.udea.edu.co:10495/246362021-12-07 11:08:02.842Repositorio Institucional Universidad de Antioquiaandres.perez@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |