De-duplication for product master data records using machine learning techniques

Con la transformación digital de las organizaciones, específicamente en grandes empresas como plataformas de comercio electrónico y marketplaces, los datos de productos han crecido exponencialmente para alcanzar los objetivos y necesidades comerciales. Para respaldar esto, tanto los profesionales co...

Full description

Autores:
Hallo Larrea, Julio Xavier
Tipo de recurso:
Masters Thesis
Fecha de publicación:
2021
Institución:
Pontificia Universidad Javeriana Cali
Repositorio:
Vitela
Idioma:
eng
OAI Identifier:
oai:vitela.javerianacali.edu.co:11522/2181
Acceso en línea:
https://vitela.javerianacali.edu.co/handle/11522/2181
Palabra clave:
Gestión de datos maestros
Calidad de datos
Resolución de de-duplicación de entidades
Aprendizaje automático
Redes neuronales profundas
LSTM redes de memoria corto plazo a largo plazo
Perceptrón Multicapa MLP
Rights
License
https://creativecommons.org/licenses/by-nc-nd/4.0/
id Vitela2_2966fe77e0ca29a65256ad9706d78897
oai_identifier_str oai:vitela.javerianacali.edu.co:11522/2181
network_acronym_str Vitela2
network_name_str Vitela
repository_id_str
dc.title.eng.fl_str_mv De-duplication for product master data records using machine learning techniques
title De-duplication for product master data records using machine learning techniques
spellingShingle De-duplication for product master data records using machine learning techniques
Gestión de datos maestros
Calidad de datos
Resolución de de-duplicación de entidades
Aprendizaje automático
Redes neuronales profundas
LSTM redes de memoria corto plazo a largo plazo
Perceptrón Multicapa MLP
title_short De-duplication for product master data records using machine learning techniques
title_full De-duplication for product master data records using machine learning techniques
title_fullStr De-duplication for product master data records using machine learning techniques
title_full_unstemmed De-duplication for product master data records using machine learning techniques
title_sort De-duplication for product master data records using machine learning techniques
dc.creator.fl_str_mv Hallo Larrea, Julio Xavier
dc.contributor.advisor.none.fl_str_mv Álvarez Vargas, Gloria Inés
dc.contributor.author.none.fl_str_mv Hallo Larrea, Julio Xavier
dc.subject.none.fl_str_mv Gestión de datos maestros
Calidad de datos
Resolución de de-duplicación de entidades
Aprendizaje automático
Redes neuronales profundas
LSTM redes de memoria corto plazo a largo plazo
Perceptrón Multicapa MLP
topic Gestión de datos maestros
Calidad de datos
Resolución de de-duplicación de entidades
Aprendizaje automático
Redes neuronales profundas
LSTM redes de memoria corto plazo a largo plazo
Perceptrón Multicapa MLP
description Con la transformación digital de las organizaciones, específicamente en grandes empresas como plataformas de comercio electrónico y marketplaces, los datos de productos han crecido exponencialmente para alcanzar los objetivos y necesidades comerciales. Para respaldar esto, tanto los profesionales como los académicos han reconocido la importancia de los datos maestros como recurso fundamental de la organización, y a su vez han identificado que la administración de datos maestros es un proceso independiente de la aplicación que lo describe, posee y administra. Con el fin de medir si este recurso es "apto para el uso", se han desarrollado metodologías, técnicas y artefactos de calidad de datos, definiendo los cuatro KPI clave: "completitud, exactitud, unicidad y oportunidad". Actualmente, las plataformas de software MDM proporcionan medios para lograr la medición y gestión correctas de los KPI descritos anteriormente. Por lo tanto, en el proceso de gestión, la interacción humana siempre es necesaria, específicamente cuando los algoritmos de deduplicación actuales deben ajustarse en función de los datos etiquetados que muestran si dos o más entidades son o no duplicados. Esta investigación aborda este problema específico utilizando técnicas de aprendizaje automático, en las cuales diseñamos, construimos y probamos un modelo que de-duplica los registros de datos maestros de productos dentro de un corpus de datos de productos públicos. Como resultado de la investigación, se han propuesto cinco (5) modelos de de-duplicación. Los modelos utilizan dos (2) tipos diferentes en arquitecturas de redes neuronales, Perceptrón Multicapa y LSTM, con dos (2) técnicas de pre-procesamiento de datos diferentes. Luego, todos los modelos han sido entrenados y probados utilizando los registros de pares de datos maestros de producto del corpus de datos seleccionado como parte de los objetivos de la investigación. Para evaluar el desempeño de cada modelo se han propuesto KPI's cuantitativos como F1 Score, entre otros, y KPI's cualitativos para clasificar la eficiencia de cada uno. Asimismo, se ha propuesto un árbol de decisión para seleccionar el modelo más adecuado según los objetivos de negocio y los recursos disponibles. Por último, se presentan las conclusiones y posible ampliación de la propuesta de investigación.
publishDate 2021
dc.date.issued.none.fl_str_mv 2021
dc.date.accessioned.none.fl_str_mv 2024-06-11T16:33:33Z
dc.date.available.none.fl_str_mv 2024-06-11T16:33:33Z
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_bdcc
dc.type.local.none.fl_str_mv Tesis/Trabajo de grado - Monografía - Maestría
dc.type.redcol.none.fl_str_mv https://purl.org/redcol/resource_type/TM
format http://purl.org/coar/resource_type/c_bdcc
dc.identifier.uri.none.fl_str_mv https://vitela.javerianacali.edu.co/handle/11522/2181
url https://vitela.javerianacali.edu.co/handle/11522/2181
dc.language.iso.none.fl_str_mv eng
language eng
dc.rights.uri.none.fl_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.creativecommons.none.fl_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.accessrights.none.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
http://purl.org/coar/access_right/c_abf2
dc.format.extent.none.fl_str_mv 136 p.
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontificia Universidad Javeriana Cali
publisher.none.fl_str_mv Pontificia Universidad Javeriana Cali
institution Pontificia Universidad Javeriana Cali
bitstream.url.fl_str_mv https://vitela.javerianacali.edu.co/bitstreams/6c94978f-3ef9-4317-bc27-1d2b1f3a3c13/download
https://vitela.javerianacali.edu.co/bitstreams/7a6ea888-34f9-4d68-ad40-32d47daec962/download
https://vitela.javerianacali.edu.co/bitstreams/2e2b8b19-baae-4dc8-a6e3-f97bfabae372/download
https://vitela.javerianacali.edu.co/bitstreams/f04103e4-f691-4a9b-bbac-1f9c33c8ac72/download
https://vitela.javerianacali.edu.co/bitstreams/a8c6b9c2-e314-4320-9d34-7e95405fcbf7/download
https://vitela.javerianacali.edu.co/bitstreams/e743c6ed-7209-4874-a4dc-699654db1175/download
https://vitela.javerianacali.edu.co/bitstreams/7b681d1e-ac16-4811-b418-e3263ffe0f87/download
bitstream.checksum.fl_str_mv 8a4605be74aa9ea9d79846c1fba20a33
c9397abec19117d3c869ff21818e0b25
51c9c2afc27f1c70312f46a1b4385218
cdb4db505c0fcdb3cdd49d799cc8a9f9
bf1608dc92c8ce90b1d8cac391c5febf
418e347890525ab0803d09554d2a9c21
bab05bc1609457143961d0fc0a07aa12
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Vitela
repository.mail.fl_str_mv vitela.mail@javerianacali.edu.co
_version_ 1812095053091307520
spelling Álvarez Vargas, Gloria InésHallo Larrea, Julio Xavier2024-06-11T16:33:33Z2024-06-11T16:33:33Z2021https://vitela.javerianacali.edu.co/handle/11522/2181Con la transformación digital de las organizaciones, específicamente en grandes empresas como plataformas de comercio electrónico y marketplaces, los datos de productos han crecido exponencialmente para alcanzar los objetivos y necesidades comerciales. Para respaldar esto, tanto los profesionales como los académicos han reconocido la importancia de los datos maestros como recurso fundamental de la organización, y a su vez han identificado que la administración de datos maestros es un proceso independiente de la aplicación que lo describe, posee y administra. Con el fin de medir si este recurso es "apto para el uso", se han desarrollado metodologías, técnicas y artefactos de calidad de datos, definiendo los cuatro KPI clave: "completitud, exactitud, unicidad y oportunidad". Actualmente, las plataformas de software MDM proporcionan medios para lograr la medición y gestión correctas de los KPI descritos anteriormente. Por lo tanto, en el proceso de gestión, la interacción humana siempre es necesaria, específicamente cuando los algoritmos de deduplicación actuales deben ajustarse en función de los datos etiquetados que muestran si dos o más entidades son o no duplicados. Esta investigación aborda este problema específico utilizando técnicas de aprendizaje automático, en las cuales diseñamos, construimos y probamos un modelo que de-duplica los registros de datos maestros de productos dentro de un corpus de datos de productos públicos. Como resultado de la investigación, se han propuesto cinco (5) modelos de de-duplicación. Los modelos utilizan dos (2) tipos diferentes en arquitecturas de redes neuronales, Perceptrón Multicapa y LSTM, con dos (2) técnicas de pre-procesamiento de datos diferentes. Luego, todos los modelos han sido entrenados y probados utilizando los registros de pares de datos maestros de producto del corpus de datos seleccionado como parte de los objetivos de la investigación. Para evaluar el desempeño de cada modelo se han propuesto KPI's cuantitativos como F1 Score, entre otros, y KPI's cualitativos para clasificar la eficiencia de cada uno. Asimismo, se ha propuesto un árbol de decisión para seleccionar el modelo más adecuado según los objetivos de negocio y los recursos disponibles. Por último, se presentan las conclusiones y posible ampliación de la propuesta de investigación.With digital transformation of organizations, specifically in companies as large enterprises as eCommerce and marketplaces platforms, product data has grown exponentially in order to achieve the business goals and needs. To support this, both practitioners and academics have shed light on the importance of master data as an enterprise resource and master data management as an application-independent process which describes, owns and manages it. In order to measure its “fit for use”, data quality methodologies, technics and artifacts have been developed, defining the four key KPI’s: “accuracy, completeness, uniqueness and timeliness”. Currently, MDM software platforms provide means to achieve the correct measurement and management of the KPI’s described above. Thus, in the process human interaction is always necessary, specifically when current deduplication algorithms need to be adjusted and fine-tuned based on labeled data that shows if two or more entities are or are not duplicates. This investigation approaches this specific problem using machine learning techniques, in which we design, build and test a model that de-duplicates product master data records within a public product data corpus. As result of the investigation, five (5) de-duplication models have been proposed. The models use two (2) different types on neural network architectures, Multilayer Perceptron and LSTM, with two (2) different data pre-processing techniques. Then all the models have been trained and tested using the data corpus product master data pair records selected as part of the investigation objectives. To evaluate each model performance quantitative KPI’s as F1 Score, among others, and qualitative KPI’s have been proposed to rank the efficiency of each one. Also, as decision tree to select the most suited model according to the business objectives and resources available has been proposed. Last, the conclusions and possible investigation proposal extension are presented.136 p.application/pdfengPontificia Universidad Javeriana Calihttps://creativecommons.org/licenses/by-nc-nd/4.0/https://creativecommons.org/licenses/by-nc-nd/4.0/http://purl.org/coar/access_right/c_abf2Gestión de datos maestrosCalidad de datosResolución de de-duplicación de entidadesAprendizaje automáticoRedes neuronales profundasLSTM redes de memoria corto plazo a largo plazoPerceptrón Multicapa MLPDe-duplication for product master data records using machine learning techniqueshttp://purl.org/coar/resource_type/c_bdccTesis/Trabajo de grado - Monografía - Maestríahttps://purl.org/redcol/resource_type/TMFacultad de Ingeniería y Ciencias. Maestría en IngenieríaPontificia Universidad Javeriana CaliMaestríaLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://vitela.javerianacali.edu.co/bitstreams/6c94978f-3ef9-4317-bc27-1d2b1f3a3c13/download8a4605be74aa9ea9d79846c1fba20a33MD51ORIGINALTesis_Maestria_Ing_Julio_Hallo_201020022065_Final.pdfTesis_Maestria_Ing_Julio_Hallo_201020022065_Final.pdfapplication/pdf10874439https://vitela.javerianacali.edu.co/bitstreams/7a6ea888-34f9-4d68-ad40-32d47daec962/downloadc9397abec19117d3c869ff21818e0b25MD51LICENCIA FINAL_jxhallo.pdfLICENCIA FINAL_jxhallo.pdfapplication/pdf103052https://vitela.javerianacali.edu.co/bitstreams/2e2b8b19-baae-4dc8-a6e3-f97bfabae372/download51c9c2afc27f1c70312f46a1b4385218MD52TEXTTesis_Maestria_Ing_Julio_Hallo_201020022065_Final.pdf.txtTesis_Maestria_Ing_Julio_Hallo_201020022065_Final.pdf.txtExtracted texttext/plain100598https://vitela.javerianacali.edu.co/bitstreams/f04103e4-f691-4a9b-bbac-1f9c33c8ac72/downloadcdb4db505c0fcdb3cdd49d799cc8a9f9MD511LICENCIA FINAL_jxhallo.pdf.txtLICENCIA FINAL_jxhallo.pdf.txtExtracted texttext/plain4755https://vitela.javerianacali.edu.co/bitstreams/a8c6b9c2-e314-4320-9d34-7e95405fcbf7/downloadbf1608dc92c8ce90b1d8cac391c5febfMD513THUMBNAILTesis_Maestria_Ing_Julio_Hallo_201020022065_Final.pdf.jpgTesis_Maestria_Ing_Julio_Hallo_201020022065_Final.pdf.jpgGenerated Thumbnailimage/jpeg3936https://vitela.javerianacali.edu.co/bitstreams/e743c6ed-7209-4874-a4dc-699654db1175/download418e347890525ab0803d09554d2a9c21MD512LICENCIA FINAL_jxhallo.pdf.jpgLICENCIA FINAL_jxhallo.pdf.jpgGenerated Thumbnailimage/jpeg5271https://vitela.javerianacali.edu.co/bitstreams/7b681d1e-ac16-4811-b418-e3263ffe0f87/downloadbab05bc1609457143961d0fc0a07aa12MD51411522/2181oai:vitela.javerianacali.edu.co:11522/21812024-06-25 05:14:01.524https://creativecommons.org/licenses/by-nc-nd/4.0/open.accesshttps://vitela.javerianacali.edu.coRepositorio Vitelavitela.mail@javerianacali.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=