Riesgo por incumplimiento de pagos en créditos de vivienda

RESUMEN : El objetivo del presente proyecto es predecir si un solicitante de crédito hipotecario incumplirá el pago de una o más cuotas del potencial crédito usando técnicas de Machine Learning. Se presenta un flujo experimental de distintos procesos y metodologías de analítica de datos para dar sol...

Full description

Autores:
Tafur Hernández, Cristhian David
Tipo de recurso:
Tesis
Fecha de publicación:
2022
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/28376
Acceso en línea:
http://hdl.handle.net/10495/28376
Palabra clave:
Aprendizaje automático (inteligencia artificial)
Machine learning
Análisis de regresión logística
Logistic regression analysis
Préstamos hipotecarios
Técnicas de predicción
Random forest classifier
Datos desbalanceados
Rights
openAccess
License
http://creativecommons.org/licenses/by/2.5/co/
id UDEA2_111b10f644a8aba5c3c8b9f1bfa1c45f
oai_identifier_str oai:bibliotecadigital.udea.edu.co:10495/28376
network_acronym_str UDEA2
network_name_str Repositorio UdeA
repository_id_str
dc.title.spa.fl_str_mv Riesgo por incumplimiento de pagos en créditos de vivienda
title Riesgo por incumplimiento de pagos en créditos de vivienda
spellingShingle Riesgo por incumplimiento de pagos en créditos de vivienda
Aprendizaje automático (inteligencia artificial)
Machine learning
Análisis de regresión logística
Logistic regression analysis
Préstamos hipotecarios
Técnicas de predicción
Random forest classifier
Datos desbalanceados
title_short Riesgo por incumplimiento de pagos en créditos de vivienda
title_full Riesgo por incumplimiento de pagos en créditos de vivienda
title_fullStr Riesgo por incumplimiento de pagos en créditos de vivienda
title_full_unstemmed Riesgo por incumplimiento de pagos en créditos de vivienda
title_sort Riesgo por incumplimiento de pagos en créditos de vivienda
dc.creator.fl_str_mv Tafur Hernández, Cristhian David
dc.contributor.advisor.none.fl_str_mv Ramos Pollán, Raúl
dc.contributor.author.none.fl_str_mv Tafur Hernández, Cristhian David
dc.subject.lemb.none.fl_str_mv Aprendizaje automático (inteligencia artificial)
Machine learning
Análisis de regresión logística
Logistic regression analysis
Préstamos hipotecarios
Técnicas de predicción
topic Aprendizaje automático (inteligencia artificial)
Machine learning
Análisis de regresión logística
Logistic regression analysis
Préstamos hipotecarios
Técnicas de predicción
Random forest classifier
Datos desbalanceados
dc.subject.proposal.spa.fl_str_mv Random forest classifier
Datos desbalanceados
description RESUMEN : El objetivo del presente proyecto es predecir si un solicitante de crédito hipotecario incumplirá el pago de una o más cuotas del potencial crédito usando técnicas de Machine Learning. Se presenta un flujo experimental de distintos procesos y metodologías de analítica de datos para dar solución al problema. El alcance de dicha experimentación llega hasta el uso de los algoritmos de regresión logística y árboles aleatorios de clasificación combinados con preprocesamientos específicos de los datos. La información para la ejecución del proyecto fue suministrada por “Home Credit” por medio de una convocatoria de competencia de predicción realizada en Kaggle en el año 2018. El problema de Machine Learning en este caso es uno de clasificación de dos clases, donde se busca identificar si un solicitante incumplirá o no el pago de una o más de las cuotas del potencial crédito. Como es usual en estos casos, el problema se caracteriza por tener clases desbalanceadas, donde la mayor parte de la información de la data de entrenamiento es de clientes que no han incumplido sus obligaciones crediticias y una mínima parte de quienes sí lo han hecho. El proceso experimental en el presente proyecto incluye la evaluación y selección de estrategias de remuestreo para datos desbalanceados, selección de hiperparámetros y opciones de reducción de dimensionalidad. El ejercicio iterativo usa las métricas de validación derivadas de la matriz de confusión para tomar las diferentes decisiones de elección y hacer seguimiento a las mejoras del modelo. Como resultado, el alcance de las experimentaciones realizadas en el presente proyecto no logran conseguir un modelo con desempeño satisfactorio. El mejor modelo desarrollado obtiene un accuracy de 75% con asertividad asimétrica entre las clases, logrando un F1 socre de 85% para la clase mayoritaria y de 28% para la minoritaria.
publishDate 2022
dc.date.accessioned.none.fl_str_mv 2022-05-16T14:46:18Z
dc.date.available.none.fl_str_mv 2022-05-16T14:46:18Z
dc.date.issued.none.fl_str_mv 2022
dc.type.spa.fl_str_mv info:eu-repo/semantics/other
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.hasversion.spa.fl_str_mv info:eu-repo/semantics/draft
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_46ec
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/COther
dc.type.local.spa.fl_str_mv Tesis/Trabajo de grado - Monografía - Especialización
format http://purl.org/coar/resource_type/c_46ec
status_str draft
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/10495/28376
url http://hdl.handle.net/10495/28376
dc.language.iso.spa.fl_str_mv spa
language spa
dc.rights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by/2.5/co/
dc.rights.accessrights.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.creativecommons.spa.fl_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/2.5/co/
http://purl.org/coar/access_right/c_abf2
https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.format.extent.spa.fl_str_mv 22
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.place.spa.fl_str_mv Medellín
institution Universidad de Antioquia
bitstream.url.fl_str_mv http://bibliotecadigital.udea.edu.co/bitstream/10495/28376/1/TafurCristhian_2022_RiesgoImpagoCreditos.pdf
http://bibliotecadigital.udea.edu.co/bitstream/10495/28376/3/license_rdf
http://bibliotecadigital.udea.edu.co/bitstream/10495/28376/4/license.txt
bitstream.checksum.fl_str_mv 5713a284c18833c351b3a7f259023f6e
1646d1f6b96dbbbc38035efc9239ac9c
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad de Antioquia
repository.mail.fl_str_mv andres.perez@udea.edu.co
_version_ 1805390135381983232
spelling Ramos Pollán, RaúlTafur Hernández, Cristhian David2022-05-16T14:46:18Z2022-05-16T14:46:18Z2022http://hdl.handle.net/10495/28376RESUMEN : El objetivo del presente proyecto es predecir si un solicitante de crédito hipotecario incumplirá el pago de una o más cuotas del potencial crédito usando técnicas de Machine Learning. Se presenta un flujo experimental de distintos procesos y metodologías de analítica de datos para dar solución al problema. El alcance de dicha experimentación llega hasta el uso de los algoritmos de regresión logística y árboles aleatorios de clasificación combinados con preprocesamientos específicos de los datos. La información para la ejecución del proyecto fue suministrada por “Home Credit” por medio de una convocatoria de competencia de predicción realizada en Kaggle en el año 2018. El problema de Machine Learning en este caso es uno de clasificación de dos clases, donde se busca identificar si un solicitante incumplirá o no el pago de una o más de las cuotas del potencial crédito. Como es usual en estos casos, el problema se caracteriza por tener clases desbalanceadas, donde la mayor parte de la información de la data de entrenamiento es de clientes que no han incumplido sus obligaciones crediticias y una mínima parte de quienes sí lo han hecho. El proceso experimental en el presente proyecto incluye la evaluación y selección de estrategias de remuestreo para datos desbalanceados, selección de hiperparámetros y opciones de reducción de dimensionalidad. El ejercicio iterativo usa las métricas de validación derivadas de la matriz de confusión para tomar las diferentes decisiones de elección y hacer seguimiento a las mejoras del modelo. Como resultado, el alcance de las experimentaciones realizadas en el presente proyecto no logran conseguir un modelo con desempeño satisfactorio. El mejor modelo desarrollado obtiene un accuracy de 75% con asertividad asimétrica entre las clases, logrando un F1 socre de 85% para la clase mayoritaria y de 28% para la minoritaria.22application/pdfspainfo:eu-repo/semantics/draftinfo:eu-repo/semantics/otherhttp://purl.org/coar/resource_type/c_46echttp://purl.org/redcol/resource_type/COtherTesis/Trabajo de grado - Monografía - Especializaciónhttp://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by/2.5/co/http://purl.org/coar/access_right/c_abf2https://creativecommons.org/licenses/by-nc-sa/4.0/Riesgo por incumplimiento de pagos en créditos de viviendaMedellínAprendizaje automático (inteligencia artificial)Machine learningAnálisis de regresión logísticaLogistic regression analysisPréstamos hipotecariosTécnicas de predicciónRandom forest classifierDatos desbalanceadoshttps://github.com/cristhiant24/EACD-HomeCreditDefaultRiskEspecialista en Analítica y Ciencia de DatosEspecializaciónFacultad de Ingeniería. Especialización en Analítica y Ciencia de DatosUniversidad de AntioquiaORIGINALTafurCristhian_2022_RiesgoImpagoCreditos.pdfTafurCristhian_2022_RiesgoImpagoCreditos.pdfTrabajo de grado de especializaciónapplication/pdf5122141http://bibliotecadigital.udea.edu.co/bitstream/10495/28376/1/TafurCristhian_2022_RiesgoImpagoCreditos.pdf5713a284c18833c351b3a7f259023f6eMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8927http://bibliotecadigital.udea.edu.co/bitstream/10495/28376/3/license_rdf1646d1f6b96dbbbc38035efc9239ac9cMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://bibliotecadigital.udea.edu.co/bitstream/10495/28376/4/license.txt8a4605be74aa9ea9d79846c1fba20a33MD5410495/28376oai:bibliotecadigital.udea.edu.co:10495/283762022-05-16 09:46:51.532Repositorio Institucional Universidad de Antioquiaandres.perez@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=