Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente

El propósito de este documento es resaltar el proceso de creación de una herramienta automatizada para revisar y asegurar la calidad de los datos procesados por un sistema ETL (Extract, Transform and Load), que es utilizado por el Banco de Occidente para migrar información desde múltiples bases de d...

Full description

Autores:
Ahumada Campos, Ray Andres
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2024
Institución:
Universidad Santo Tomás
Repositorio:
Repositorio Institucional USTA
Idioma:
spa
OAI Identifier:
oai:repository.usta.edu.co:11634/53911
Acceso en línea:
http://hdl.handle.net/11634/53911
Palabra clave:
ETL
Python
QA
CSV
Testing
Software
Data
Ingeniería de Telecomunicaciones
Datos
Banco
Calidad-Datos
ETL
Python
QA
CSV
Pruebas
Software
Datos
Rights
openAccess
License
Atribución-NoComercial-SinDerivadas 2.5 Colombia
id SANTOTOMAS_4cd0b5fc97aafd10dfca3565f88686df
oai_identifier_str oai:repository.usta.edu.co:11634/53911
network_acronym_str SANTOTOMAS
network_name_str Repositorio Institucional USTA
repository_id_str
dc.title.spa.fl_str_mv Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente
title Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente
spellingShingle Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente
ETL
Python
QA
CSV
Testing
Software
Data
Ingeniería de Telecomunicaciones
Datos
Banco
Calidad-Datos
ETL
Python
QA
CSV
Pruebas
Software
Datos
title_short Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente
title_full Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente
title_fullStr Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente
title_full_unstemmed Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente
title_sort Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente
dc.creator.fl_str_mv Ahumada Campos, Ray Andres
dc.contributor.advisor.none.fl_str_mv Mancera Lagos, Pedro Alejandro
dc.contributor.author.none.fl_str_mv Ahumada Campos, Ray Andres
dc.contributor.orcid.spa.fl_str_mv https://orcid.org/0000-0001-8546-5058
dc.contributor.cvlac.spa.fl_str_mv https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000068920
https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0002169554
dc.contributor.corporatename.spa.fl_str_mv Universidad Santo Tomás
dc.subject.keyword.spa.fl_str_mv ETL
Python
QA
CSV
Testing
Software
Data
topic ETL
Python
QA
CSV
Testing
Software
Data
Ingeniería de Telecomunicaciones
Datos
Banco
Calidad-Datos
ETL
Python
QA
CSV
Pruebas
Software
Datos
dc.subject.lemb.spa.fl_str_mv Ingeniería de Telecomunicaciones
Datos
Banco
Calidad-Datos
dc.subject.proposal.spa.fl_str_mv ETL
Python
QA
CSV
Pruebas
Software
Datos
description El propósito de este documento es resaltar el proceso de creación de una herramienta automatizada para revisar y asegurar la calidad de los datos procesados por un sistema ETL (Extract, Transform and Load), que es utilizado por el Banco de Occidente para migrar información desde múltiples bases de datos hacia una base de datos central. Durante este proceso de migración, las tablas de datos están expuestas al riesgo de corrupción debido a posibles errores en el desarrollo de la ETL. Dada la cantidad sustancial de datos involucrados, revisar manualmente estas tablas se vuelve impracticable, ya que pueden contener millones de registros. En respuesta a esta necesidad, el equipo de pruebas del banco identificó la urgencia de contar con una herramienta para verificar la corrección de los archivos antes de cargarlos en la base de datos de destino. Como solución, se desarrolló una herramienta utilizando el lenguaje de programación Python. Esta herramienta toma archivos en formato .csv extraídos de las bases de datos y los compara con los datos almacenados en hojas de cálculo de Excel (.xlsx), proporcionando indicadores de similitud entre ambas fuentes. Esto asegura la integridad de los archivos una vez procesados. Además, la herramienta ofrece la opción de descargar un archivo en formato .xlsx con una tabla booleana que detalla qué datos han sido modificados, lo cual es valioso para los Analistas de Control de Calidad (QA) al informar sobre fallos en las ETL suministradas. En conclusión, se logró desarrollar una interfaz gráfica de usuario que cumple con los objetivos establecidos para asegurar la calidad de los datos procesados por la ETL. La herramienta también tiene un potencial significativo para implementarse en otros equipos de pruebas de software y migración de datos, ofreciendo una solución eficiente y confiable para garantizar la exactitud de los datos en procesos similares.
publishDate 2024
dc.date.accessioned.none.fl_str_mv 2024-02-02T14:04:23Z
dc.date.available.none.fl_str_mv 2024-02-02T14:04:23Z
dc.date.issued.none.fl_str_mv 2024-02-01
dc.type.local.spa.fl_str_mv Trabajo de grado
dc.type.version.none.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.drive.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
format http://purl.org/coar/resource_type/c_7a1f
status_str acceptedVersion
dc.identifier.citation.spa.fl_str_mv Ahumada Campos, R. A. (2023). Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente. [Trabajo de Grado, Universidad Santo Tomás]. Repositorio Institucional.
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/11634/53911
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional Universidad Santo Tomás
dc.identifier.instname.spa.fl_str_mv instname:Universidad Santo Tomás
dc.identifier.repourl.spa.fl_str_mv repourl:https://repository.usta.edu.co
identifier_str_mv Ahumada Campos, R. A. (2023). Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente. [Trabajo de Grado, Universidad Santo Tomás]. Repositorio Institucional.
reponame:Repositorio Institucional Universidad Santo Tomás
instname:Universidad Santo Tomás
repourl:https://repository.usta.edu.co
url http://hdl.handle.net/11634/53911
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.references.spa.fl_str_mv Amazon Web Services, Inc. (s.f.). ¿QUÉ ES ETL? - Explicación de extracción, transformación y carga (ETL) - AWS. Recuperado de https://aws.amazon.com/es/what-is/etl/
SYDLE. (2021, 9 de abril). Automatización de procesos: ¿cómo funciona? ¿Cuáles son los beneficios? Blog SYDLE. Recuperado de https://www.sydle.com/es/blog/automatizacion-de-procesos-6070ae4c9b901904c4349dcb
PowerData - Especialista en Gestión de Datos | MDM | Big Data | Cloud | Data Warehouse. (s.f.). CALIDAD DE Datos. Cómo impulsar tu negocio con los datos. Recuperado de https://www.powerdata.es/calidad-de-datos
Microsoft Learn: Build skills that open doors in your career. (s.f.). USO DE Python para scripting y automatización. Recuperado de https://learn.microsoft.com/es-es/windows/python/scripting
Amazon Web Services, Inc. (s.f.). ¿QUÉ ES Python? - Explicación del lenguaje Python - AWS. Recuperado de https://aws.amazon.com/es/what-is/python/
Python documentation. (s.f.). TKINTER – Interface de Python para Tcl/Tk. Recuperado de https://docs.python.org/es/3/library/tkinter.html
Aprende con Alf. (s.f.). LA LIBRERÍA Pandas | Aprende con Alf. Recuperado de https://aprendeconalf.es/docencia/python/manual/pandas/
Cardellino, F. (2021, 20 de marzo). La guía definitiva del paquete NumPy para computación científica en Python. freeCodeCamp.org. Recuperado de https://www.freecodecamp.org/espanol/news/la-guia-definitiva-del-paquete-numpy-para-computacion-cientifica-en-python/
dc.rights.*.fl_str_mv Atribución-NoComercial-SinDerivadas 2.5 Colombia
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/co/
dc.rights.local.spa.fl_str_mv Abierto (Texto Completo)
dc.rights.accessrights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv Atribución-NoComercial-SinDerivadas 2.5 Colombia
http://creativecommons.org/licenses/by-nc-nd/2.5/co/
Abierto (Texto Completo)
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.coverage.campus.spa.fl_str_mv CRAI-USTA Bogotá
dc.publisher.spa.fl_str_mv Universidad Santo Tomás
dc.publisher.program.spa.fl_str_mv Pregrado Ingeniería de Telecomunicaciones
dc.publisher.faculty.spa.fl_str_mv Facultad de Ingeniería de Telecomunicaciones
institution Universidad Santo Tomás
bitstream.url.fl_str_mv https://repository.usta.edu.co/bitstream/11634/53911/1/2024rayahumada.pdf
https://repository.usta.edu.co/bitstream/11634/53911/2/Carta%20Aprobaci%c3%b3n%20Facultad.pdf
https://repository.usta.edu.co/bitstream/11634/53911/3/Carta%20Derechos%20de%20Autor.pdf
https://repository.usta.edu.co/bitstream/11634/53911/4/license_rdf
https://repository.usta.edu.co/bitstream/11634/53911/5/license.txt
https://repository.usta.edu.co/bitstream/11634/53911/6/2024rayahumada.pdf.jpg
https://repository.usta.edu.co/bitstream/11634/53911/7/Carta%20Aprobaci%c3%b3n%20Facultad.pdf.jpg
https://repository.usta.edu.co/bitstream/11634/53911/8/Carta%20Derechos%20de%20Autor.pdf.jpg
bitstream.checksum.fl_str_mv e499c987ab7b1c5978a52ffd1c4b70a5
f283404a7bd5082ed220a2fc3e8a59c6
a122d13ae6b17c3ce4c346db10e31798
217700a34da79ed616c2feb68d4c5e06
aedeaf396fcd827b537c73d23464fc27
136aef8aa024b6f93b56459df88f0873
e08f718f2ae184da96c5b2f3d376489b
80505cb02bb6019db042bd3a48c30919
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Universidad Santo Tomás
repository.mail.fl_str_mv noreply@usta.edu.co
_version_ 1860882413065863168
spelling Mancera Lagos, Pedro AlejandroAhumada Campos, Ray Andreshttps://orcid.org/0000-0001-8546-5058https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000068920https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0002169554Universidad Santo Tomás2024-02-02T14:04:23Z2024-02-02T14:04:23Z2024-02-01Ahumada Campos, R. A. (2023). Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente. [Trabajo de Grado, Universidad Santo Tomás]. Repositorio Institucional.http://hdl.handle.net/11634/53911reponame:Repositorio Institucional Universidad Santo Tomásinstname:Universidad Santo Tomásrepourl:https://repository.usta.edu.coEl propósito de este documento es resaltar el proceso de creación de una herramienta automatizada para revisar y asegurar la calidad de los datos procesados por un sistema ETL (Extract, Transform and Load), que es utilizado por el Banco de Occidente para migrar información desde múltiples bases de datos hacia una base de datos central. Durante este proceso de migración, las tablas de datos están expuestas al riesgo de corrupción debido a posibles errores en el desarrollo de la ETL. Dada la cantidad sustancial de datos involucrados, revisar manualmente estas tablas se vuelve impracticable, ya que pueden contener millones de registros. En respuesta a esta necesidad, el equipo de pruebas del banco identificó la urgencia de contar con una herramienta para verificar la corrección de los archivos antes de cargarlos en la base de datos de destino. Como solución, se desarrolló una herramienta utilizando el lenguaje de programación Python. Esta herramienta toma archivos en formato .csv extraídos de las bases de datos y los compara con los datos almacenados en hojas de cálculo de Excel (.xlsx), proporcionando indicadores de similitud entre ambas fuentes. Esto asegura la integridad de los archivos una vez procesados. Además, la herramienta ofrece la opción de descargar un archivo en formato .xlsx con una tabla booleana que detalla qué datos han sido modificados, lo cual es valioso para los Analistas de Control de Calidad (QA) al informar sobre fallos en las ETL suministradas. En conclusión, se logró desarrollar una interfaz gráfica de usuario que cumple con los objetivos establecidos para asegurar la calidad de los datos procesados por la ETL. La herramienta también tiene un potencial significativo para implementarse en otros equipos de pruebas de software y migración de datos, ofreciendo una solución eficiente y confiable para garantizar la exactitud de los datos en procesos similares.The purpose of this document is to highlight the process of creating an automated tool for reviewing and ensuring the quality of data processed by an ETL (Extract, Transform, and Load) system, which is utilized by Banco de Occidente to migrate information from multiple databases to a central database. During this migration process, the data tables are exposed to the risk of corruption due to potential errors in the ETL development. Given the substantial amount of data involved, manually reviewing these tables becomes impractical as they may contain millions of records. In response to this need, the bank's testing team identified the urgency of having a tool to verify the correctness of files before loading them into the destination database. As a solution, a tool was developed using the Python programming language. This tool takes files in .csv format extracted from databases and compares them with data stored in Excel spreadsheets (.xlsx), providing indicators of similarity between both sources. This ensures the integrity of the files once processed. Additionally, the tool offers the option to download a .xlsx file with a boolean table detailing which data has been modified, which is valuable for Quality Control Analysts (QA) when reporting faults in supplied ETLs. In conclusion, a user-friendly interface was successfully developed that meets the established objectives for ensuring the quality of data processed by the ETL. The tool also has significant potential for implementation in other software testing and data migration teams, offering an efficient and reliable solution to ensure data accuracy in similar processes.Ingeniero de TelecomunicacionesPregradoapplication/pdfspaUniversidad Santo TomásPregrado Ingeniería de TelecomunicacionesFacultad de Ingeniería de TelecomunicacionesAtribución-NoComercial-SinDerivadas 2.5 Colombiahttp://creativecommons.org/licenses/by-nc-nd/2.5/co/Abierto (Texto Completo)info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de OccidenteETLPythonQACSVTestingSoftwareDataIngeniería de TelecomunicacionesDatosBancoCalidad-DatosETLPythonQACSVPruebasSoftwareDatosTrabajo de gradoinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:eu-repo/semantics/bachelorThesisCRAI-USTA BogotáAmazon Web Services, Inc. (s.f.). ¿QUÉ ES ETL? - Explicación de extracción, transformación y carga (ETL) - AWS. Recuperado de https://aws.amazon.com/es/what-is/etl/SYDLE. (2021, 9 de abril). Automatización de procesos: ¿cómo funciona? ¿Cuáles son los beneficios? Blog SYDLE. Recuperado de https://www.sydle.com/es/blog/automatizacion-de-procesos-6070ae4c9b901904c4349dcbPowerData - Especialista en Gestión de Datos | MDM | Big Data | Cloud | Data Warehouse. (s.f.). CALIDAD DE Datos. Cómo impulsar tu negocio con los datos. Recuperado de https://www.powerdata.es/calidad-de-datosMicrosoft Learn: Build skills that open doors in your career. (s.f.). USO DE Python para scripting y automatización. Recuperado de https://learn.microsoft.com/es-es/windows/python/scriptingAmazon Web Services, Inc. (s.f.). ¿QUÉ ES Python? - Explicación del lenguaje Python - AWS. Recuperado de https://aws.amazon.com/es/what-is/python/Python documentation. (s.f.). TKINTER – Interface de Python para Tcl/Tk. Recuperado de https://docs.python.org/es/3/library/tkinter.htmlAprende con Alf. (s.f.). LA LIBRERÍA Pandas | Aprende con Alf. Recuperado de https://aprendeconalf.es/docencia/python/manual/pandas/Cardellino, F. (2021, 20 de marzo). La guía definitiva del paquete NumPy para computación científica en Python. freeCodeCamp.org. Recuperado de https://www.freecodecamp.org/espanol/news/la-guia-definitiva-del-paquete-numpy-para-computacion-cientifica-en-python/ORIGINAL2024rayahumada.pdf2024rayahumada.pdfTrabajo de gradoapplication/pdf1521125https://repository.usta.edu.co/bitstream/11634/53911/1/2024rayahumada.pdfe499c987ab7b1c5978a52ffd1c4b70a5MD51open accessCarta Aprobación Facultad.pdfCarta Aprobación Facultad.pdfCarta aprobación facultadapplication/pdf108205https://repository.usta.edu.co/bitstream/11634/53911/2/Carta%20Aprobaci%c3%b3n%20Facultad.pdff283404a7bd5082ed220a2fc3e8a59c6MD52metadata only accessCarta Derechos de Autor.pdfCarta Derechos de Autor.pdfCarta derechos de autorapplication/pdf966559https://repository.usta.edu.co/bitstream/11634/53911/3/Carta%20Derechos%20de%20Autor.pdfa122d13ae6b17c3ce4c346db10e31798MD53metadata only accessCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repository.usta.edu.co/bitstream/11634/53911/4/license_rdf217700a34da79ed616c2feb68d4c5e06MD54open accessLICENSElicense.txtlicense.txttext/plain; charset=utf-8807https://repository.usta.edu.co/bitstream/11634/53911/5/license.txtaedeaf396fcd827b537c73d23464fc27MD55open accessTHUMBNAIL2024rayahumada.pdf.jpg2024rayahumada.pdf.jpgIM Thumbnailimage/jpeg3935https://repository.usta.edu.co/bitstream/11634/53911/6/2024rayahumada.pdf.jpg136aef8aa024b6f93b56459df88f0873MD56open accessCarta Aprobación Facultad.pdf.jpgCarta Aprobación Facultad.pdf.jpgIM Thumbnailimage/jpeg6357https://repository.usta.edu.co/bitstream/11634/53911/7/Carta%20Aprobaci%c3%b3n%20Facultad.pdf.jpge08f718f2ae184da96c5b2f3d376489bMD57open accessCarta Derechos de Autor.pdf.jpgCarta Derechos de Autor.pdf.jpgIM Thumbnailimage/jpeg7797https://repository.usta.edu.co/bitstream/11634/53911/8/Carta%20Derechos%20de%20Autor.pdf.jpg80505cb02bb6019db042bd3a48c30919MD58open access11634/53911oai:repository.usta.edu.co:11634/539112024-02-03 03:30:02.007open accessRepositorio Universidad Santo Tomásnoreply@usta.edu.coQXV0b3Jpem8gYWwgQ2VudHJvIGRlIFJlY3Vyc29zIHBhcmEgZWwgQXByZW5kaXphamUgeSBsYSBJbnZlc3RpZ2FjacOzbiwgQ1JBSS1VU1RBCmRlIGxhIFVuaXZlcnNpZGFkIFNhbnRvIFRvbcOhcywgcGFyYSBxdWUgY29uIGZpbmVzIGFjYWTDqW1pY29zIGFsbWFjZW5lIGxhCmluZm9ybWFjacOzbiBpbmdyZXNhZGEgcHJldmlhbWVudGUuCgpTZSBwZXJtaXRlIGxhIGNvbnN1bHRhLCByZXByb2R1Y2Npw7NuIHBhcmNpYWwsIHRvdGFsIG8gY2FtYmlvIGRlIGZvcm1hdG8gY29uCmZpbmVzIGRlIGNvbnNlcnZhY2nDs24sIGEgbG9zIHVzdWFyaW9zIGludGVyZXNhZG9zIGVuIGVsIGNvbnRlbmlkbyBkZSBlc3RlCnRyYWJham8sIHBhcmEgdG9kb3MgbG9zIHVzb3MgcXVlIHRlbmdhbiBmaW5hbGlkYWQgYWNhZMOpbWljYSwgc2llbXByZSB5IGN1YW5kbwptZWRpYW50ZSBsYSBjb3JyZXNwb25kaWVudGUgY2l0YSBiaWJsaW9ncsOhZmljYSBzZSBsZSBkw6kgY3LDqWRpdG8gYWwgdHJhYmFqbyBkZQpncmFkbyB5IGEgc3UgYXV0b3IuIERlIGNvbmZvcm1pZGFkIGNvbiBsbyBlc3RhYmxlY2lkbyBlbiBlbCBhcnTDrWN1bG8gMzAgZGUgbGEKTGV5IDIzIGRlIDE5ODIgeSBlbCBhcnTDrWN1bG8gMTEgZGUgbGEgRGVjaXNpw7NuIEFuZGluYSAzNTEgZGUgMTk5Mywg4oCcTG9zIGRlcmVjaG9zCm1vcmFsZXMgc29icmUgZWwgdHJhYmFqbyBzb24gcHJvcGllZGFkIGRlIGxvcyBhdXRvcmVz4oCdLCBsb3MgY3VhbGVzIHNvbgppcnJlbnVuY2lhYmxlcywgaW1wcmVzY3JpcHRpYmxlcywgaW5lbWJhcmdhYmxlcyBlIGluYWxpZW5hYmxlcy4K