De-duplication for product master data records using machine learning techniques
Con la transformación digital de las organizaciones, específicamente en grandes empresas como plataformas de comercio electrónico y marketplaces, los datos de productos han crecido exponencialmente para alcanzar los objetivos y necesidades comerciales. Para respaldar esto, tanto los profesionales co...
- Autores:
-
Hallo Larrea, Julio Xavier
- Tipo de recurso:
- Masters Thesis
- Fecha de publicación:
- 2021
- Institución:
- Pontificia Universidad Javeriana Cali
- Repositorio:
- Vitela
- Idioma:
- eng
- OAI Identifier:
- oai:vitela.javerianacali.edu.co:11522/2181
- Acceso en línea:
- https://vitela.javerianacali.edu.co/handle/11522/2181
- Palabra clave:
- Gestión de datos maestros
Calidad de datos
Resolución de de-duplicación de entidades
Aprendizaje automático
Redes neuronales profundas
LSTM redes de memoria corto plazo a largo plazo
Perceptrón Multicapa MLP
- Rights
- License
- https://creativecommons.org/licenses/by-nc-nd/4.0/
id |
Vitela2_2966fe77e0ca29a65256ad9706d78897 |
---|---|
oai_identifier_str |
oai:vitela.javerianacali.edu.co:11522/2181 |
network_acronym_str |
Vitela2 |
network_name_str |
Vitela |
repository_id_str |
|
dc.title.eng.fl_str_mv |
De-duplication for product master data records using machine learning techniques |
title |
De-duplication for product master data records using machine learning techniques |
spellingShingle |
De-duplication for product master data records using machine learning techniques Gestión de datos maestros Calidad de datos Resolución de de-duplicación de entidades Aprendizaje automático Redes neuronales profundas LSTM redes de memoria corto plazo a largo plazo Perceptrón Multicapa MLP |
title_short |
De-duplication for product master data records using machine learning techniques |
title_full |
De-duplication for product master data records using machine learning techniques |
title_fullStr |
De-duplication for product master data records using machine learning techniques |
title_full_unstemmed |
De-duplication for product master data records using machine learning techniques |
title_sort |
De-duplication for product master data records using machine learning techniques |
dc.creator.fl_str_mv |
Hallo Larrea, Julio Xavier |
dc.contributor.advisor.none.fl_str_mv |
Álvarez Vargas, Gloria Inés |
dc.contributor.author.none.fl_str_mv |
Hallo Larrea, Julio Xavier |
dc.subject.none.fl_str_mv |
Gestión de datos maestros Calidad de datos Resolución de de-duplicación de entidades Aprendizaje automático Redes neuronales profundas LSTM redes de memoria corto plazo a largo plazo Perceptrón Multicapa MLP |
topic |
Gestión de datos maestros Calidad de datos Resolución de de-duplicación de entidades Aprendizaje automático Redes neuronales profundas LSTM redes de memoria corto plazo a largo plazo Perceptrón Multicapa MLP |
description |
Con la transformación digital de las organizaciones, específicamente en grandes empresas como plataformas de comercio electrónico y marketplaces, los datos de productos han crecido exponencialmente para alcanzar los objetivos y necesidades comerciales. Para respaldar esto, tanto los profesionales como los académicos han reconocido la importancia de los datos maestros como recurso fundamental de la organización, y a su vez han identificado que la administración de datos maestros es un proceso independiente de la aplicación que lo describe, posee y administra. Con el fin de medir si este recurso es "apto para el uso", se han desarrollado metodologías, técnicas y artefactos de calidad de datos, definiendo los cuatro KPI clave: "completitud, exactitud, unicidad y oportunidad". Actualmente, las plataformas de software MDM proporcionan medios para lograr la medición y gestión correctas de los KPI descritos anteriormente. Por lo tanto, en el proceso de gestión, la interacción humana siempre es necesaria, específicamente cuando los algoritmos de deduplicación actuales deben ajustarse en función de los datos etiquetados que muestran si dos o más entidades son o no duplicados. Esta investigación aborda este problema específico utilizando técnicas de aprendizaje automático, en las cuales diseñamos, construimos y probamos un modelo que de-duplica los registros de datos maestros de productos dentro de un corpus de datos de productos públicos. Como resultado de la investigación, se han propuesto cinco (5) modelos de de-duplicación. Los modelos utilizan dos (2) tipos diferentes en arquitecturas de redes neuronales, Perceptrón Multicapa y LSTM, con dos (2) técnicas de pre-procesamiento de datos diferentes. Luego, todos los modelos han sido entrenados y probados utilizando los registros de pares de datos maestros de producto del corpus de datos seleccionado como parte de los objetivos de la investigación. Para evaluar el desempeño de cada modelo se han propuesto KPI's cuantitativos como F1 Score, entre otros, y KPI's cualitativos para clasificar la eficiencia de cada uno. Asimismo, se ha propuesto un árbol de decisión para seleccionar el modelo más adecuado según los objetivos de negocio y los recursos disponibles. Por último, se presentan las conclusiones y posible ampliación de la propuesta de investigación. |
publishDate |
2021 |
dc.date.issued.none.fl_str_mv |
2021 |
dc.date.accessioned.none.fl_str_mv |
2024-06-11T16:33:33Z |
dc.date.available.none.fl_str_mv |
2024-06-11T16:33:33Z |
dc.type.coar.none.fl_str_mv |
http://purl.org/coar/resource_type/c_bdcc |
dc.type.local.none.fl_str_mv |
Tesis/Trabajo de grado - Monografía - Maestría |
dc.type.redcol.none.fl_str_mv |
https://purl.org/redcol/resource_type/TM |
format |
http://purl.org/coar/resource_type/c_bdcc |
dc.identifier.uri.none.fl_str_mv |
https://vitela.javerianacali.edu.co/handle/11522/2181 |
url |
https://vitela.javerianacali.edu.co/handle/11522/2181 |
dc.language.iso.none.fl_str_mv |
eng |
language |
eng |
dc.rights.uri.none.fl_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ |
dc.rights.creativecommons.none.fl_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ |
dc.rights.accessrights.none.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-nd/4.0/ http://purl.org/coar/access_right/c_abf2 |
dc.format.extent.none.fl_str_mv |
136 p. |
dc.format.mimetype.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Pontificia Universidad Javeriana Cali |
publisher.none.fl_str_mv |
Pontificia Universidad Javeriana Cali |
institution |
Pontificia Universidad Javeriana Cali |
bitstream.url.fl_str_mv |
https://vitela.javerianacali.edu.co/bitstreams/6c94978f-3ef9-4317-bc27-1d2b1f3a3c13/download https://vitela.javerianacali.edu.co/bitstreams/7a6ea888-34f9-4d68-ad40-32d47daec962/download https://vitela.javerianacali.edu.co/bitstreams/2e2b8b19-baae-4dc8-a6e3-f97bfabae372/download https://vitela.javerianacali.edu.co/bitstreams/f04103e4-f691-4a9b-bbac-1f9c33c8ac72/download https://vitela.javerianacali.edu.co/bitstreams/a8c6b9c2-e314-4320-9d34-7e95405fcbf7/download https://vitela.javerianacali.edu.co/bitstreams/e743c6ed-7209-4874-a4dc-699654db1175/download https://vitela.javerianacali.edu.co/bitstreams/7b681d1e-ac16-4811-b418-e3263ffe0f87/download |
bitstream.checksum.fl_str_mv |
8a4605be74aa9ea9d79846c1fba20a33 c9397abec19117d3c869ff21818e0b25 51c9c2afc27f1c70312f46a1b4385218 cdb4db505c0fcdb3cdd49d799cc8a9f9 bf1608dc92c8ce90b1d8cac391c5febf 418e347890525ab0803d09554d2a9c21 bab05bc1609457143961d0fc0a07aa12 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Vitela |
repository.mail.fl_str_mv |
vitela.mail@javerianacali.edu.co |
_version_ |
1812095053091307520 |
spelling |
Álvarez Vargas, Gloria InésHallo Larrea, Julio Xavier2024-06-11T16:33:33Z2024-06-11T16:33:33Z2021https://vitela.javerianacali.edu.co/handle/11522/2181Con la transformación digital de las organizaciones, específicamente en grandes empresas como plataformas de comercio electrónico y marketplaces, los datos de productos han crecido exponencialmente para alcanzar los objetivos y necesidades comerciales. Para respaldar esto, tanto los profesionales como los académicos han reconocido la importancia de los datos maestros como recurso fundamental de la organización, y a su vez han identificado que la administración de datos maestros es un proceso independiente de la aplicación que lo describe, posee y administra. Con el fin de medir si este recurso es "apto para el uso", se han desarrollado metodologías, técnicas y artefactos de calidad de datos, definiendo los cuatro KPI clave: "completitud, exactitud, unicidad y oportunidad". Actualmente, las plataformas de software MDM proporcionan medios para lograr la medición y gestión correctas de los KPI descritos anteriormente. Por lo tanto, en el proceso de gestión, la interacción humana siempre es necesaria, específicamente cuando los algoritmos de deduplicación actuales deben ajustarse en función de los datos etiquetados que muestran si dos o más entidades son o no duplicados. Esta investigación aborda este problema específico utilizando técnicas de aprendizaje automático, en las cuales diseñamos, construimos y probamos un modelo que de-duplica los registros de datos maestros de productos dentro de un corpus de datos de productos públicos. Como resultado de la investigación, se han propuesto cinco (5) modelos de de-duplicación. Los modelos utilizan dos (2) tipos diferentes en arquitecturas de redes neuronales, Perceptrón Multicapa y LSTM, con dos (2) técnicas de pre-procesamiento de datos diferentes. Luego, todos los modelos han sido entrenados y probados utilizando los registros de pares de datos maestros de producto del corpus de datos seleccionado como parte de los objetivos de la investigación. Para evaluar el desempeño de cada modelo se han propuesto KPI's cuantitativos como F1 Score, entre otros, y KPI's cualitativos para clasificar la eficiencia de cada uno. Asimismo, se ha propuesto un árbol de decisión para seleccionar el modelo más adecuado según los objetivos de negocio y los recursos disponibles. Por último, se presentan las conclusiones y posible ampliación de la propuesta de investigación.With digital transformation of organizations, specifically in companies as large enterprises as eCommerce and marketplaces platforms, product data has grown exponentially in order to achieve the business goals and needs. To support this, both practitioners and academics have shed light on the importance of master data as an enterprise resource and master data management as an application-independent process which describes, owns and manages it. In order to measure its “fit for use”, data quality methodologies, technics and artifacts have been developed, defining the four key KPI’s: “accuracy, completeness, uniqueness and timeliness”. Currently, MDM software platforms provide means to achieve the correct measurement and management of the KPI’s described above. Thus, in the process human interaction is always necessary, specifically when current deduplication algorithms need to be adjusted and fine-tuned based on labeled data that shows if two or more entities are or are not duplicates. This investigation approaches this specific problem using machine learning techniques, in which we design, build and test a model that de-duplicates product master data records within a public product data corpus. As result of the investigation, five (5) de-duplication models have been proposed. The models use two (2) different types on neural network architectures, Multilayer Perceptron and LSTM, with two (2) different data pre-processing techniques. Then all the models have been trained and tested using the data corpus product master data pair records selected as part of the investigation objectives. To evaluate each model performance quantitative KPI’s as F1 Score, among others, and qualitative KPI’s have been proposed to rank the efficiency of each one. Also, as decision tree to select the most suited model according to the business objectives and resources available has been proposed. Last, the conclusions and possible investigation proposal extension are presented.136 p.application/pdfengPontificia Universidad Javeriana Calihttps://creativecommons.org/licenses/by-nc-nd/4.0/https://creativecommons.org/licenses/by-nc-nd/4.0/http://purl.org/coar/access_right/c_abf2Gestión de datos maestrosCalidad de datosResolución de de-duplicación de entidadesAprendizaje automáticoRedes neuronales profundasLSTM redes de memoria corto plazo a largo plazoPerceptrón Multicapa MLPDe-duplication for product master data records using machine learning techniqueshttp://purl.org/coar/resource_type/c_bdccTesis/Trabajo de grado - Monografía - Maestríahttps://purl.org/redcol/resource_type/TMFacultad de Ingeniería y Ciencias. Maestría en IngenieríaPontificia Universidad Javeriana CaliMaestríaLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://vitela.javerianacali.edu.co/bitstreams/6c94978f-3ef9-4317-bc27-1d2b1f3a3c13/download8a4605be74aa9ea9d79846c1fba20a33MD51ORIGINALTesis_Maestria_Ing_Julio_Hallo_201020022065_Final.pdfTesis_Maestria_Ing_Julio_Hallo_201020022065_Final.pdfapplication/pdf10874439https://vitela.javerianacali.edu.co/bitstreams/7a6ea888-34f9-4d68-ad40-32d47daec962/downloadc9397abec19117d3c869ff21818e0b25MD51LICENCIA FINAL_jxhallo.pdfLICENCIA FINAL_jxhallo.pdfapplication/pdf103052https://vitela.javerianacali.edu.co/bitstreams/2e2b8b19-baae-4dc8-a6e3-f97bfabae372/download51c9c2afc27f1c70312f46a1b4385218MD52TEXTTesis_Maestria_Ing_Julio_Hallo_201020022065_Final.pdf.txtTesis_Maestria_Ing_Julio_Hallo_201020022065_Final.pdf.txtExtracted texttext/plain100598https://vitela.javerianacali.edu.co/bitstreams/f04103e4-f691-4a9b-bbac-1f9c33c8ac72/downloadcdb4db505c0fcdb3cdd49d799cc8a9f9MD511LICENCIA FINAL_jxhallo.pdf.txtLICENCIA FINAL_jxhallo.pdf.txtExtracted texttext/plain4755https://vitela.javerianacali.edu.co/bitstreams/a8c6b9c2-e314-4320-9d34-7e95405fcbf7/downloadbf1608dc92c8ce90b1d8cac391c5febfMD513THUMBNAILTesis_Maestria_Ing_Julio_Hallo_201020022065_Final.pdf.jpgTesis_Maestria_Ing_Julio_Hallo_201020022065_Final.pdf.jpgGenerated Thumbnailimage/jpeg3936https://vitela.javerianacali.edu.co/bitstreams/e743c6ed-7209-4874-a4dc-699654db1175/download418e347890525ab0803d09554d2a9c21MD512LICENCIA FINAL_jxhallo.pdf.jpgLICENCIA FINAL_jxhallo.pdf.jpgGenerated Thumbnailimage/jpeg5271https://vitela.javerianacali.edu.co/bitstreams/7b681d1e-ac16-4811-b418-e3263ffe0f87/downloadbab05bc1609457143961d0fc0a07aa12MD51411522/2181oai:vitela.javerianacali.edu.co:11522/21812024-06-25 05:14:01.524https://creativecommons.org/licenses/by-nc-nd/4.0/open.accesshttps://vitela.javerianacali.edu.coRepositorio Vitelavitela.mail@javerianacali.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |