Santander customer satisfaction : un caso práctico de analítica productiva
RESUMEN : Se presenta a continuación un proyecto de machine learning dentro de la analítica predictiva aplicado a un problema real del sector financiero y bancario. En el año 2016 el banco Santander propuso a través de la plataforma Kaggle un reto analítico dirigido a todos aquellos apasionados por...
- Autores:
-
Acevedo Álvarez, Andrés Felipe
Betancur Tellez, Sebastián
- Tipo de recurso:
- Tesis
- Fecha de publicación:
- 2021
- Institución:
- Universidad de Antioquia
- Repositorio:
- Repositorio UdeA
- Idioma:
- spa
- OAI Identifier:
- oai:bibliotecadigital.udea.edu.co:10495/21866
- Acceso en línea:
- http://hdl.handle.net/10495/21866
https://github.com/sebastianbetancur1/Monografia_de_grado_UdeA
- Palabra clave:
- Análisis de datos
Data analysis
Instituciones financieras
Financial institutions
Procesamiento de datos
Data processing
Machine learning
Aprendizaje electrónico
http://aims.fao.org/aos/agrovoc/c_49834
http://vocabularies.unesco.org/thesaurus/concept2214
http://vocabularies.unesco.org/thesaurus/concept10861
http://vocabularies.unesco.org/thesaurus/concept522
- Rights
- openAccess
- License
- http://creativecommons.org/licenses/by-nc-sa/2.5/co/
id |
UDEA2_60798da5085ddd8c10c36a488f5fa2b8 |
---|---|
oai_identifier_str |
oai:bibliotecadigital.udea.edu.co:10495/21866 |
network_acronym_str |
UDEA2 |
network_name_str |
Repositorio UdeA |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Santander customer satisfaction : un caso práctico de analítica productiva |
title |
Santander customer satisfaction : un caso práctico de analítica productiva |
spellingShingle |
Santander customer satisfaction : un caso práctico de analítica productiva Análisis de datos Data analysis Instituciones financieras Financial institutions Procesamiento de datos Data processing Machine learning Aprendizaje electrónico http://aims.fao.org/aos/agrovoc/c_49834 http://vocabularies.unesco.org/thesaurus/concept2214 http://vocabularies.unesco.org/thesaurus/concept10861 http://vocabularies.unesco.org/thesaurus/concept522 |
title_short |
Santander customer satisfaction : un caso práctico de analítica productiva |
title_full |
Santander customer satisfaction : un caso práctico de analítica productiva |
title_fullStr |
Santander customer satisfaction : un caso práctico de analítica productiva |
title_full_unstemmed |
Santander customer satisfaction : un caso práctico de analítica productiva |
title_sort |
Santander customer satisfaction : un caso práctico de analítica productiva |
dc.creator.fl_str_mv |
Acevedo Álvarez, Andrés Felipe Betancur Tellez, Sebastián |
dc.contributor.advisor.none.fl_str_mv |
Oviedo, Efraín Alberto |
dc.contributor.author.none.fl_str_mv |
Acevedo Álvarez, Andrés Felipe Betancur Tellez, Sebastián |
dc.subject.unesco.none.fl_str_mv |
Análisis de datos Data analysis Instituciones financieras Financial institutions Procesamiento de datos Data processing |
topic |
Análisis de datos Data analysis Instituciones financieras Financial institutions Procesamiento de datos Data processing Machine learning Aprendizaje electrónico http://aims.fao.org/aos/agrovoc/c_49834 http://vocabularies.unesco.org/thesaurus/concept2214 http://vocabularies.unesco.org/thesaurus/concept10861 http://vocabularies.unesco.org/thesaurus/concept522 |
dc.subject.agrovoc.none.fl_str_mv |
Machine learning Aprendizaje electrónico |
dc.subject.agrovocuri.none.fl_str_mv |
http://aims.fao.org/aos/agrovoc/c_49834 |
dc.subject.unescouri.none.fl_str_mv |
http://vocabularies.unesco.org/thesaurus/concept2214 http://vocabularies.unesco.org/thesaurus/concept10861 http://vocabularies.unesco.org/thesaurus/concept522 |
description |
RESUMEN : Se presenta a continuación un proyecto de machine learning dentro de la analítica predictiva aplicado a un problema real del sector financiero y bancario. En el año 2016 el banco Santander propuso a través de la plataforma Kaggle un reto analítico dirigido a todos aquellos apasionados por la inteligencia artificial con el objetivo principal de resolver un problema de clasificación cuyo fin era identificar cuáles clientes se encontraban satisfechos y cuáles no con la entidad financiera. Se decide retomar este concurso en el que en su momento participaron más de 5.000 equipos a nivel mundial para a modo de reto académico y personal encontrar resultados sobresalientes a un problema complejo. Adicional, se presenta un proyecto con una característica muy común en el día a día de un científico de datos: una base de datos altamente desbalanceada, por lo que hace del reto un problema mucho más interesante a resolver, más aún cuando se enmarca en un contexto de experiencia y fidelización de clientes, temática que a hoy es foco organizacional en las principales organizaciones del mundo. Dentro de este proyecto se persigue unos resultados tanto de machine learning como de negocio sobresalientes. La métrica propuesta por el banco Santander para evaluar la calidad de los modelos fue el área bajo la curva ROC, y lo que se busca en este entregable es alcanzar un resultado mínimo del 70%. En cuanto a los datos, fueron suministrados directamente por la entidad bancaria de manera anonimizada a través de la plataforma Kaggle, con una muestra total de 76 mil clientes y más de 350 características relacionales entre banco y cliente. Aquí se tenían dos grandes retos, el primero era reducir la alta dimensionalidad que presentaba la base a través de técnicas como correlaciones, limpieza de datos y depuración de valores atípicos, y la segunda era trabajar de manera precisa las diversas técnicas para lograr enfrentarse a una base altamente desbalanceada. Para este entregable se plantearon 5 modelos de clasificación, en donde en cada iteración se buscó encontrar la mejor escogencia de variables, a través de un preprocesamiento detallado de los datos y la aplicación de diversas técnicas de balance. Para cada modelo se aplicó una búsqueda rigurosa de los mejores hiperparametros y se realizaron las validaciones necesarias para lograr las métricas esperadas. Finalmente, los resultados cumplieron con lo esperado, se selecciona como el modelo con la mejor métrica a una red neural que arroja un área bajo la curva ROC del 0.84 y se propone como entregable adicional que la entidad financiera utiliza cómo métrica de negocio el indicador NPS, el cual le permite medir la satisfacción de sus clientes y junto a los hallazgos de este modelo pueda tomar acciones proactivas que le apunten a la fidelización de sus clientes. |
publishDate |
2021 |
dc.date.accessioned.none.fl_str_mv |
2021-08-25T16:01:28Z |
dc.date.available.none.fl_str_mv |
2021-08-25T16:01:28Z |
dc.date.issued.none.fl_str_mv |
2021 |
dc.type.spa.fl_str_mv |
info:eu-repo/semantics/other |
dc.type.coarversion.fl_str_mv |
http://purl.org/coar/version/c_b1a7d7d4d402bcce |
dc.type.hasversion.spa.fl_str_mv |
info:eu-repo/semantics/draft |
dc.type.coar.spa.fl_str_mv |
http://purl.org/coar/resource_type/c_46ec |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/COther |
dc.type.local.spa.fl_str_mv |
Tesis/Trabajo de grado - Monografía - Especialización |
format |
http://purl.org/coar/resource_type/c_46ec |
status_str |
draft |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/10495/21866 |
dc.identifier.url.spa.fl_str_mv |
https://github.com/sebastianbetancur1/Monografia_de_grado_UdeA |
url |
http://hdl.handle.net/10495/21866 https://github.com/sebastianbetancur1/Monografia_de_grado_UdeA |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.rights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-sa/2.5/co/ |
dc.rights.accessrights.spa.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.creativecommons.spa.fl_str_mv |
https://creativecommons.org/licenses/by-nc-sa/4.0/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/2.5/co/ http://purl.org/coar/access_right/c_abf2 https://creativecommons.org/licenses/by-nc-sa/4.0/ |
dc.format.extent.spa.fl_str_mv |
23 |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
dc.publisher.place.spa.fl_str_mv |
Medellín |
institution |
Universidad de Antioquia |
bitstream.url.fl_str_mv |
http://bibliotecadigital.udea.edu.co/bitstream/10495/21866/2/AcevedoAndres_BetancurSebastian_2021_AnaliticaPredictivaClientes.pdf http://bibliotecadigital.udea.edu.co/bitstream/10495/21866/7/license_rdf http://bibliotecadigital.udea.edu.co/bitstream/10495/21866/8/license.txt |
bitstream.checksum.fl_str_mv |
32abc87b47afd77e0422b5c882f368de e2060682c9c70d4d30c83c51448f4eed 8a4605be74aa9ea9d79846c1fba20a33 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional Universidad de Antioquia |
repository.mail.fl_str_mv |
andres.perez@udea.edu.co |
_version_ |
1812173133562511360 |
spelling |
Oviedo, Efraín AlbertoAcevedo Álvarez, Andrés FelipeBetancur Tellez, Sebastián2021-08-25T16:01:28Z2021-08-25T16:01:28Z2021http://hdl.handle.net/10495/21866https://github.com/sebastianbetancur1/Monografia_de_grado_UdeARESUMEN : Se presenta a continuación un proyecto de machine learning dentro de la analítica predictiva aplicado a un problema real del sector financiero y bancario. En el año 2016 el banco Santander propuso a través de la plataforma Kaggle un reto analítico dirigido a todos aquellos apasionados por la inteligencia artificial con el objetivo principal de resolver un problema de clasificación cuyo fin era identificar cuáles clientes se encontraban satisfechos y cuáles no con la entidad financiera. Se decide retomar este concurso en el que en su momento participaron más de 5.000 equipos a nivel mundial para a modo de reto académico y personal encontrar resultados sobresalientes a un problema complejo. Adicional, se presenta un proyecto con una característica muy común en el día a día de un científico de datos: una base de datos altamente desbalanceada, por lo que hace del reto un problema mucho más interesante a resolver, más aún cuando se enmarca en un contexto de experiencia y fidelización de clientes, temática que a hoy es foco organizacional en las principales organizaciones del mundo. Dentro de este proyecto se persigue unos resultados tanto de machine learning como de negocio sobresalientes. La métrica propuesta por el banco Santander para evaluar la calidad de los modelos fue el área bajo la curva ROC, y lo que se busca en este entregable es alcanzar un resultado mínimo del 70%. En cuanto a los datos, fueron suministrados directamente por la entidad bancaria de manera anonimizada a través de la plataforma Kaggle, con una muestra total de 76 mil clientes y más de 350 características relacionales entre banco y cliente. Aquí se tenían dos grandes retos, el primero era reducir la alta dimensionalidad que presentaba la base a través de técnicas como correlaciones, limpieza de datos y depuración de valores atípicos, y la segunda era trabajar de manera precisa las diversas técnicas para lograr enfrentarse a una base altamente desbalanceada. Para este entregable se plantearon 5 modelos de clasificación, en donde en cada iteración se buscó encontrar la mejor escogencia de variables, a través de un preprocesamiento detallado de los datos y la aplicación de diversas técnicas de balance. Para cada modelo se aplicó una búsqueda rigurosa de los mejores hiperparametros y se realizaron las validaciones necesarias para lograr las métricas esperadas. Finalmente, los resultados cumplieron con lo esperado, se selecciona como el modelo con la mejor métrica a una red neural que arroja un área bajo la curva ROC del 0.84 y se propone como entregable adicional que la entidad financiera utiliza cómo métrica de negocio el indicador NPS, el cual le permite medir la satisfacción de sus clientes y junto a los hallazgos de este modelo pueda tomar acciones proactivas que le apunten a la fidelización de sus clientes.23application/pdfspainfo:eu-repo/semantics/draftinfo:eu-repo/semantics/otherhttp://purl.org/coar/resource_type/c_46echttp://purl.org/redcol/resource_type/COtherTesis/Trabajo de grado - Monografía - Especializaciónhttp://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/co/http://purl.org/coar/access_right/c_abf2https://creativecommons.org/licenses/by-nc-sa/4.0/Santander customer satisfaction : un caso práctico de analítica productivaMedellínAnálisis de datosData analysisInstituciones financierasFinancial institutionsProcesamiento de datosData processingMachine learningAprendizaje electrónicohttp://aims.fao.org/aos/agrovoc/c_49834http://vocabularies.unesco.org/thesaurus/concept2214http://vocabularies.unesco.org/thesaurus/concept10861http://vocabularies.unesco.org/thesaurus/concept522https://github.com/sebastianbetancur1/Monografia_de_grado_UdeAEspecialista en Analítica y Ciencia de DatosEspecializaciónFacultad de Ingeniería. Especialización en Analítica y Ciencia de DatosUniversidad de AntioquiaORIGINALAcevedoAndres_BetancurSebastian_2021_AnaliticaPredictivaClientes.pdfAcevedoAndres_BetancurSebastian_2021_AnaliticaPredictivaClientes.pdfTrabajo de grado de especializaciónapplication/pdf625344http://bibliotecadigital.udea.edu.co/bitstream/10495/21866/2/AcevedoAndres_BetancurSebastian_2021_AnaliticaPredictivaClientes.pdf32abc87b47afd77e0422b5c882f368deMD52CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81051http://bibliotecadigital.udea.edu.co/bitstream/10495/21866/7/license_rdfe2060682c9c70d4d30c83c51448f4eedMD57LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://bibliotecadigital.udea.edu.co/bitstream/10495/21866/8/license.txt8a4605be74aa9ea9d79846c1fba20a33MD5810495/21866oai:bibliotecadigital.udea.edu.co:10495/218662021-08-25 11:02:26.319Repositorio Institucional Universidad de Antioquiaandres.perez@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |