Detección de fraude en transacciones comerciales de clientes aplicando métodos de ML

RESUMEN : Después de realizar una revisión de los métodos de aprendizaje automático que han sido reportados en diferentes literaturas para la predicción de fraude se ha encontrado que con ayuda de la aplicación de técnicas de procesamiento es posible encontrar una ruta adecuada para dar solución a u...

Full description

Autores:
Florez Bedoya, Laura Andrea
Tipo de recurso:
Tesis
Fecha de publicación:
2021
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/24605
Acceso en línea:
http://hdl.handle.net/10495/24605
Palabra clave:
Análisis de datos
Data analysis
Aprendizaje electrónico
Machine learning
Fraude
Fraud
Detección de fraude
Aprendizaje supervisado
http://aims.fao.org/aos/agrovoc/c_49834
http://aims.fao.org/aos/agrovoc/c_8139c3d0
http://vocabularies.unesco.org/thesaurus/concept2214
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-sa/2.5/co/
id UDEA2_c9ecfa2eef18c5704d7f964984c88685
oai_identifier_str oai:bibliotecadigital.udea.edu.co:10495/24605
network_acronym_str UDEA2
network_name_str Repositorio UdeA
repository_id_str
dc.title.spa.fl_str_mv Detección de fraude en transacciones comerciales de clientes aplicando métodos de ML
dc.title.alternative.spa.fl_str_mv Fraud Detection in Commercial Transactions Applying ML Methods
title Detección de fraude en transacciones comerciales de clientes aplicando métodos de ML
spellingShingle Detección de fraude en transacciones comerciales de clientes aplicando métodos de ML
Análisis de datos
Data analysis
Aprendizaje electrónico
Machine learning
Fraude
Fraud
Detección de fraude
Aprendizaje supervisado
http://aims.fao.org/aos/agrovoc/c_49834
http://aims.fao.org/aos/agrovoc/c_8139c3d0
http://vocabularies.unesco.org/thesaurus/concept2214
title_short Detección de fraude en transacciones comerciales de clientes aplicando métodos de ML
title_full Detección de fraude en transacciones comerciales de clientes aplicando métodos de ML
title_fullStr Detección de fraude en transacciones comerciales de clientes aplicando métodos de ML
title_full_unstemmed Detección de fraude en transacciones comerciales de clientes aplicando métodos de ML
title_sort Detección de fraude en transacciones comerciales de clientes aplicando métodos de ML
dc.creator.fl_str_mv Florez Bedoya, Laura Andrea
dc.contributor.advisor.none.fl_str_mv Botía Valderrama, Javier Fernando
dc.contributor.author.none.fl_str_mv Florez Bedoya, Laura Andrea
dc.subject.unesco.none.fl_str_mv Análisis de datos
Data analysis
topic Análisis de datos
Data analysis
Aprendizaje electrónico
Machine learning
Fraude
Fraud
Detección de fraude
Aprendizaje supervisado
http://aims.fao.org/aos/agrovoc/c_49834
http://aims.fao.org/aos/agrovoc/c_8139c3d0
http://vocabularies.unesco.org/thesaurus/concept2214
dc.subject.agrovoc.none.fl_str_mv Aprendizaje electrónico
Machine learning
Fraude
Fraud
dc.subject.proposal.spa.fl_str_mv Detección de fraude
Aprendizaje supervisado
dc.subject.agrovocuri.none.fl_str_mv http://aims.fao.org/aos/agrovoc/c_49834
http://aims.fao.org/aos/agrovoc/c_8139c3d0
dc.subject.unescouri.none.fl_str_mv http://vocabularies.unesco.org/thesaurus/concept2214
description RESUMEN : Después de realizar una revisión de los métodos de aprendizaje automático que han sido reportados en diferentes literaturas para la predicción de fraude se ha encontrado que con ayuda de la aplicación de técnicas de procesamiento es posible encontrar una ruta adecuada para dar solución a una problemática tan actual como lo es el fraude en comercios electrónicos. Entre los métodos de ML evaluados es posible mencionar especialmente, las técnicas de aprendizaje supervisado, cuyos modelos de clasificación pueden etiquetar eventos como buenos (donde las transacciones son genuinas) o malos (cuando el comportamiento asociado no es correcto o fraudulento). Además de la aplicación de los modelos supervisados se hacen uso también, de técnicas de procesamiento que por medio de los mismos datos realizan transformaciones y nuevas inferencias que puedan describir con mayor detalle el comportamiento de un cliente a lo largo de una transacción o en el establecimiento de señales de fraude. Estas implementaciones incluyen la generación de características o el agrupamiento de variables sobre información relevante en una transacción electrónica como, las formas de pago o la identidad de un usuario. Durante la investigación se examinó con detalle el uso de diferentes métodos y subprocesos de ML con el fin de determinar cuál es la mejor opción para lograr una adecuada predicción de fraude sobre una fuente abundante de información recopilada (con gran dimensionalidad). La modelización incluyó un análisis de los modelos y del efecto de algunos métodos de procesamiento (como ingeniería de características, escalamiento y ajuste de desbalanceo) sobre la predicción de casos fraudulentos, evaluando su rendimiento por medio de distintas métricas de clasificación. Los resultados mostraron que al hacer uso del ajuste de hiperparámetros para métodos de aprendizaje supervisado en conjunto con la aplicación de técnicas de procesamiento es posible obtener modelos optimizados que presenten buen comportamiento de predicción en evento fraudulentos. Un factor importante que se observó fue la influencia del escalamiento sobre la predicción, donde la evaluación de dichos modelos con ayuda de distintas métricas evidenció la influencia directa de estas transformaciones numéricas sobre los verdaderos negativos hallados (que representan los casos de fraude). Los resultados de la modelización y del análisis realizado se presentan de forma que puedan ser usados a futuro en estudios más profundos sobre la detección de fraude.
publishDate 2021
dc.date.accessioned.none.fl_str_mv 2021-12-06T19:48:12Z
dc.date.available.none.fl_str_mv 2021-12-06T19:48:12Z
dc.date.issued.none.fl_str_mv 2021
dc.type.spa.fl_str_mv info:eu-repo/semantics/other
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.hasversion.spa.fl_str_mv info:eu-repo/semantics/draft
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_46ec
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/COther
dc.type.local.spa.fl_str_mv Tesis/Trabajo de grado - Monografía - Especialización
format http://purl.org/coar/resource_type/c_46ec
status_str draft
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/10495/24605
url http://hdl.handle.net/10495/24605
dc.language.iso.spa.fl_str_mv spa
language spa
dc.rights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/co/
dc.rights.accessrights.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.creativecommons.spa.fl_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/co/
http://purl.org/coar/access_right/c_abf2
https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.format.extent.spa.fl_str_mv 61
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.place.spa.fl_str_mv Medellín
institution Universidad de Antioquia
bitstream.url.fl_str_mv http://bibliotecadigital.udea.edu.co/bitstream/10495/24605/4/license_rdf
http://bibliotecadigital.udea.edu.co/bitstream/10495/24605/5/license.txt
http://bibliotecadigital.udea.edu.co/bitstream/10495/24605/3/FlorezLaura_2021_ModelosMLFraude.pdf
bitstream.checksum.fl_str_mv e2060682c9c70d4d30c83c51448f4eed
8a4605be74aa9ea9d79846c1fba20a33
6e0bb3472d20eca8177f985e1f0a6c49
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad de Antioquia
repository.mail.fl_str_mv andres.perez@udea.edu.co
_version_ 1812173104931143680
spelling Botía Valderrama, Javier FernandoFlorez Bedoya, Laura Andrea2021-12-06T19:48:12Z2021-12-06T19:48:12Z2021http://hdl.handle.net/10495/24605RESUMEN : Después de realizar una revisión de los métodos de aprendizaje automático que han sido reportados en diferentes literaturas para la predicción de fraude se ha encontrado que con ayuda de la aplicación de técnicas de procesamiento es posible encontrar una ruta adecuada para dar solución a una problemática tan actual como lo es el fraude en comercios electrónicos. Entre los métodos de ML evaluados es posible mencionar especialmente, las técnicas de aprendizaje supervisado, cuyos modelos de clasificación pueden etiquetar eventos como buenos (donde las transacciones son genuinas) o malos (cuando el comportamiento asociado no es correcto o fraudulento). Además de la aplicación de los modelos supervisados se hacen uso también, de técnicas de procesamiento que por medio de los mismos datos realizan transformaciones y nuevas inferencias que puedan describir con mayor detalle el comportamiento de un cliente a lo largo de una transacción o en el establecimiento de señales de fraude. Estas implementaciones incluyen la generación de características o el agrupamiento de variables sobre información relevante en una transacción electrónica como, las formas de pago o la identidad de un usuario. Durante la investigación se examinó con detalle el uso de diferentes métodos y subprocesos de ML con el fin de determinar cuál es la mejor opción para lograr una adecuada predicción de fraude sobre una fuente abundante de información recopilada (con gran dimensionalidad). La modelización incluyó un análisis de los modelos y del efecto de algunos métodos de procesamiento (como ingeniería de características, escalamiento y ajuste de desbalanceo) sobre la predicción de casos fraudulentos, evaluando su rendimiento por medio de distintas métricas de clasificación. Los resultados mostraron que al hacer uso del ajuste de hiperparámetros para métodos de aprendizaje supervisado en conjunto con la aplicación de técnicas de procesamiento es posible obtener modelos optimizados que presenten buen comportamiento de predicción en evento fraudulentos. Un factor importante que se observó fue la influencia del escalamiento sobre la predicción, donde la evaluación de dichos modelos con ayuda de distintas métricas evidenció la influencia directa de estas transformaciones numéricas sobre los verdaderos negativos hallados (que representan los casos de fraude). Los resultados de la modelización y del análisis realizado se presentan de forma que puedan ser usados a futuro en estudios más profundos sobre la detección de fraude.ABSTRACT : After reviewing the machine learning methods that have been reported in different literatures for fraud prediction, it has been found that with the help of the application of processing techniques it is possible to find an adequate route to provide a solution to such a current problem as fraud in electronic commerce. Among the ML methods evaluated, it is possible to mention especially supervised learning techniques, whose classification models can label events as good (where the transactions are genuine) or bad (when the associated behavior is not correct or fraudulent). In addition to the application of supervised models, processing techniques are also used, where using the same data, it performs transformations and new inferences that can describe in greater detail the behavior of a customer throughout a transaction or in the establishment of fraud signals. These implementations include the generation of features or the grouping of variables about relevant information in an electronic transaction such as, payment methods or the identity of a user. During the research, the use of different ML methods and sub-processes were examined in detail in order to determine which is the best option to achieve adequate fraud prediction on an abundant source of collected information (with high dimensionality). The modeling included an analysis of the models and the effect of some processing methods (such as feature engineering, scaling and unbalance adjustment) on the prediction of fraudulent cases, evaluating their performance by means of different classification metrics. The results showed that by making use of hyperparameter tuning for supervised learning methods in combination with the application of processing techniques, it is possible to obtain optimized models that exhibit good prediction behavior in fraudulent events. An important factor observed was the influence of scaling on prediction, where the evaluation of these models with the help of different metrics evidenced the direct influence of these numerical transformations on the true negatives found (representing fraud cases). The results of the modeling and analysis performed are presented so that they can be used in the future for more in-depth studies on fraud detection.61application/pdfspainfo:eu-repo/semantics/draftinfo:eu-repo/semantics/otherhttp://purl.org/coar/resource_type/c_46echttp://purl.org/redcol/resource_type/COtherTesis/Trabajo de grado - Monografía - Especializaciónhttp://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/co/http://purl.org/coar/access_right/c_abf2https://creativecommons.org/licenses/by-nc-sa/4.0/Detección de fraude en transacciones comerciales de clientes aplicando métodos de MLFraud Detection in Commercial Transactions Applying ML MethodsMedellínAnálisis de datosData analysisAprendizaje electrónicoMachine learningFraudeFraudDetección de fraudeAprendizaje supervisadohttp://aims.fao.org/aos/agrovoc/c_49834http://aims.fao.org/aos/agrovoc/c_8139c3d0http://vocabularies.unesco.org/thesaurus/concept2214https://github.com/fblaura/FraudDEspecialista en Analítica y Ciencia de DatosEspecializaciónFacultad de Ingeniería. Especialización en Analítica y Ciencia de DatosUniversidad de AntioquiaCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81051http://bibliotecadigital.udea.edu.co/bitstream/10495/24605/4/license_rdfe2060682c9c70d4d30c83c51448f4eedMD54LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://bibliotecadigital.udea.edu.co/bitstream/10495/24605/5/license.txt8a4605be74aa9ea9d79846c1fba20a33MD55ORIGINALFlorezLaura_2021_ModelosMLFraude.pdfFlorezLaura_2021_ModelosMLFraude.pdfTrabajo de grado de especializaciónapplication/pdf1918230http://bibliotecadigital.udea.edu.co/bitstream/10495/24605/3/FlorezLaura_2021_ModelosMLFraude.pdf6e0bb3472d20eca8177f985e1f0a6c49MD5310495/24605oai:bibliotecadigital.udea.edu.co:10495/246052021-12-06 14:48:48.08Repositorio Institucional Universidad de Antioquiaandres.perez@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=