Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente
El propósito de este documento es resaltar el proceso de creación de una herramienta automatizada para revisar y asegurar la calidad de los datos procesados por un sistema ETL (Extract, Transform and Load), que es utilizado por el Banco de Occidente para migrar información desde múltiples bases de d...
- Autores:
-
Ahumada Campos, Ray Andres
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2024
- Institución:
- Universidad Santo Tomás
- Repositorio:
- Repositorio Institucional USTA
- Idioma:
- spa
- OAI Identifier:
- oai:repository.usta.edu.co:11634/53911
- Acceso en línea:
- http://hdl.handle.net/11634/53911
- Palabra clave:
- ETL
Python
QA
CSV
Testing
Software
Data
Ingeniería de Telecomunicaciones
Datos
Banco
Calidad-Datos
ETL
Python
QA
CSV
Pruebas
Software
Datos
- Rights
- openAccess
- License
- Atribución-NoComercial-SinDerivadas 2.5 Colombia
| id |
SANTOTOMAS_4cd0b5fc97aafd10dfca3565f88686df |
|---|---|
| oai_identifier_str |
oai:repository.usta.edu.co:11634/53911 |
| network_acronym_str |
SANTOTOMAS |
| network_name_str |
Repositorio Institucional USTA |
| repository_id_str |
|
| dc.title.spa.fl_str_mv |
Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente |
| title |
Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente |
| spellingShingle |
Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente ETL Python QA CSV Testing Software Data Ingeniería de Telecomunicaciones Datos Banco Calidad-Datos ETL Python QA CSV Pruebas Software Datos |
| title_short |
Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente |
| title_full |
Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente |
| title_fullStr |
Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente |
| title_full_unstemmed |
Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente |
| title_sort |
Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente |
| dc.creator.fl_str_mv |
Ahumada Campos, Ray Andres |
| dc.contributor.advisor.none.fl_str_mv |
Mancera Lagos, Pedro Alejandro |
| dc.contributor.author.none.fl_str_mv |
Ahumada Campos, Ray Andres |
| dc.contributor.orcid.spa.fl_str_mv |
https://orcid.org/0000-0001-8546-5058 |
| dc.contributor.cvlac.spa.fl_str_mv |
https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000068920 https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0002169554 |
| dc.contributor.corporatename.spa.fl_str_mv |
Universidad Santo Tomás |
| dc.subject.keyword.spa.fl_str_mv |
ETL Python QA CSV Testing Software Data |
| topic |
ETL Python QA CSV Testing Software Data Ingeniería de Telecomunicaciones Datos Banco Calidad-Datos ETL Python QA CSV Pruebas Software Datos |
| dc.subject.lemb.spa.fl_str_mv |
Ingeniería de Telecomunicaciones Datos Banco Calidad-Datos |
| dc.subject.proposal.spa.fl_str_mv |
ETL Python QA CSV Pruebas Software Datos |
| description |
El propósito de este documento es resaltar el proceso de creación de una herramienta automatizada para revisar y asegurar la calidad de los datos procesados por un sistema ETL (Extract, Transform and Load), que es utilizado por el Banco de Occidente para migrar información desde múltiples bases de datos hacia una base de datos central. Durante este proceso de migración, las tablas de datos están expuestas al riesgo de corrupción debido a posibles errores en el desarrollo de la ETL. Dada la cantidad sustancial de datos involucrados, revisar manualmente estas tablas se vuelve impracticable, ya que pueden contener millones de registros. En respuesta a esta necesidad, el equipo de pruebas del banco identificó la urgencia de contar con una herramienta para verificar la corrección de los archivos antes de cargarlos en la base de datos de destino. Como solución, se desarrolló una herramienta utilizando el lenguaje de programación Python. Esta herramienta toma archivos en formato .csv extraídos de las bases de datos y los compara con los datos almacenados en hojas de cálculo de Excel (.xlsx), proporcionando indicadores de similitud entre ambas fuentes. Esto asegura la integridad de los archivos una vez procesados. Además, la herramienta ofrece la opción de descargar un archivo en formato .xlsx con una tabla booleana que detalla qué datos han sido modificados, lo cual es valioso para los Analistas de Control de Calidad (QA) al informar sobre fallos en las ETL suministradas. En conclusión, se logró desarrollar una interfaz gráfica de usuario que cumple con los objetivos establecidos para asegurar la calidad de los datos procesados por la ETL. La herramienta también tiene un potencial significativo para implementarse en otros equipos de pruebas de software y migración de datos, ofreciendo una solución eficiente y confiable para garantizar la exactitud de los datos en procesos similares. |
| publishDate |
2024 |
| dc.date.accessioned.none.fl_str_mv |
2024-02-02T14:04:23Z |
| dc.date.available.none.fl_str_mv |
2024-02-02T14:04:23Z |
| dc.date.issued.none.fl_str_mv |
2024-02-01 |
| dc.type.local.spa.fl_str_mv |
Trabajo de grado |
| dc.type.version.none.fl_str_mv |
info:eu-repo/semantics/acceptedVersion |
| dc.type.coar.none.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
| dc.type.drive.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
| format |
http://purl.org/coar/resource_type/c_7a1f |
| status_str |
acceptedVersion |
| dc.identifier.citation.spa.fl_str_mv |
Ahumada Campos, R. A. (2023). Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente. [Trabajo de Grado, Universidad Santo Tomás]. Repositorio Institucional. |
| dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/11634/53911 |
| dc.identifier.reponame.spa.fl_str_mv |
reponame:Repositorio Institucional Universidad Santo Tomás |
| dc.identifier.instname.spa.fl_str_mv |
instname:Universidad Santo Tomás |
| dc.identifier.repourl.spa.fl_str_mv |
repourl:https://repository.usta.edu.co |
| identifier_str_mv |
Ahumada Campos, R. A. (2023). Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente. [Trabajo de Grado, Universidad Santo Tomás]. Repositorio Institucional. reponame:Repositorio Institucional Universidad Santo Tomás instname:Universidad Santo Tomás repourl:https://repository.usta.edu.co |
| url |
http://hdl.handle.net/11634/53911 |
| dc.language.iso.spa.fl_str_mv |
spa |
| language |
spa |
| dc.relation.references.spa.fl_str_mv |
Amazon Web Services, Inc. (s.f.). ¿QUÉ ES ETL? - Explicación de extracción, transformación y carga (ETL) - AWS. Recuperado de https://aws.amazon.com/es/what-is/etl/ SYDLE. (2021, 9 de abril). Automatización de procesos: ¿cómo funciona? ¿Cuáles son los beneficios? Blog SYDLE. Recuperado de https://www.sydle.com/es/blog/automatizacion-de-procesos-6070ae4c9b901904c4349dcb PowerData - Especialista en Gestión de Datos | MDM | Big Data | Cloud | Data Warehouse. (s.f.). CALIDAD DE Datos. Cómo impulsar tu negocio con los datos. Recuperado de https://www.powerdata.es/calidad-de-datos Microsoft Learn: Build skills that open doors in your career. (s.f.). USO DE Python para scripting y automatización. Recuperado de https://learn.microsoft.com/es-es/windows/python/scripting Amazon Web Services, Inc. (s.f.). ¿QUÉ ES Python? - Explicación del lenguaje Python - AWS. Recuperado de https://aws.amazon.com/es/what-is/python/ Python documentation. (s.f.). TKINTER – Interface de Python para Tcl/Tk. Recuperado de https://docs.python.org/es/3/library/tkinter.html Aprende con Alf. (s.f.). LA LIBRERÍA Pandas | Aprende con Alf. Recuperado de https://aprendeconalf.es/docencia/python/manual/pandas/ Cardellino, F. (2021, 20 de marzo). La guía definitiva del paquete NumPy para computación científica en Python. freeCodeCamp.org. Recuperado de https://www.freecodecamp.org/espanol/news/la-guia-definitiva-del-paquete-numpy-para-computacion-cientifica-en-python/ |
| dc.rights.*.fl_str_mv |
Atribución-NoComercial-SinDerivadas 2.5 Colombia |
| dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/co/ |
| dc.rights.local.spa.fl_str_mv |
Abierto (Texto Completo) |
| dc.rights.accessrights.none.fl_str_mv |
info:eu-repo/semantics/openAccess |
| dc.rights.coar.spa.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
| rights_invalid_str_mv |
Atribución-NoComercial-SinDerivadas 2.5 Colombia http://creativecommons.org/licenses/by-nc-nd/2.5/co/ Abierto (Texto Completo) http://purl.org/coar/access_right/c_abf2 |
| eu_rights_str_mv |
openAccess |
| dc.format.mimetype.spa.fl_str_mv |
application/pdf |
| dc.coverage.campus.spa.fl_str_mv |
CRAI-USTA Bogotá |
| dc.publisher.spa.fl_str_mv |
Universidad Santo Tomás |
| dc.publisher.program.spa.fl_str_mv |
Pregrado Ingeniería de Telecomunicaciones |
| dc.publisher.faculty.spa.fl_str_mv |
Facultad de Ingeniería de Telecomunicaciones |
| institution |
Universidad Santo Tomás |
| bitstream.url.fl_str_mv |
https://repository.usta.edu.co/bitstream/11634/53911/1/2024rayahumada.pdf https://repository.usta.edu.co/bitstream/11634/53911/2/Carta%20Aprobaci%c3%b3n%20Facultad.pdf https://repository.usta.edu.co/bitstream/11634/53911/3/Carta%20Derechos%20de%20Autor.pdf https://repository.usta.edu.co/bitstream/11634/53911/4/license_rdf https://repository.usta.edu.co/bitstream/11634/53911/5/license.txt https://repository.usta.edu.co/bitstream/11634/53911/6/2024rayahumada.pdf.jpg https://repository.usta.edu.co/bitstream/11634/53911/7/Carta%20Aprobaci%c3%b3n%20Facultad.pdf.jpg https://repository.usta.edu.co/bitstream/11634/53911/8/Carta%20Derechos%20de%20Autor.pdf.jpg |
| bitstream.checksum.fl_str_mv |
e499c987ab7b1c5978a52ffd1c4b70a5 f283404a7bd5082ed220a2fc3e8a59c6 a122d13ae6b17c3ce4c346db10e31798 217700a34da79ed616c2feb68d4c5e06 aedeaf396fcd827b537c73d23464fc27 136aef8aa024b6f93b56459df88f0873 e08f718f2ae184da96c5b2f3d376489b 80505cb02bb6019db042bd3a48c30919 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositorio Universidad Santo Tomás |
| repository.mail.fl_str_mv |
noreply@usta.edu.co |
| _version_ |
1860882413065863168 |
| spelling |
Mancera Lagos, Pedro AlejandroAhumada Campos, Ray Andreshttps://orcid.org/0000-0001-8546-5058https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000068920https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0002169554Universidad Santo Tomás2024-02-02T14:04:23Z2024-02-02T14:04:23Z2024-02-01Ahumada Campos, R. A. (2023). Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente. [Trabajo de Grado, Universidad Santo Tomás]. Repositorio Institucional.http://hdl.handle.net/11634/53911reponame:Repositorio Institucional Universidad Santo Tomásinstname:Universidad Santo Tomásrepourl:https://repository.usta.edu.coEl propósito de este documento es resaltar el proceso de creación de una herramienta automatizada para revisar y asegurar la calidad de los datos procesados por un sistema ETL (Extract, Transform and Load), que es utilizado por el Banco de Occidente para migrar información desde múltiples bases de datos hacia una base de datos central. Durante este proceso de migración, las tablas de datos están expuestas al riesgo de corrupción debido a posibles errores en el desarrollo de la ETL. Dada la cantidad sustancial de datos involucrados, revisar manualmente estas tablas se vuelve impracticable, ya que pueden contener millones de registros. En respuesta a esta necesidad, el equipo de pruebas del banco identificó la urgencia de contar con una herramienta para verificar la corrección de los archivos antes de cargarlos en la base de datos de destino. Como solución, se desarrolló una herramienta utilizando el lenguaje de programación Python. Esta herramienta toma archivos en formato .csv extraídos de las bases de datos y los compara con los datos almacenados en hojas de cálculo de Excel (.xlsx), proporcionando indicadores de similitud entre ambas fuentes. Esto asegura la integridad de los archivos una vez procesados. Además, la herramienta ofrece la opción de descargar un archivo en formato .xlsx con una tabla booleana que detalla qué datos han sido modificados, lo cual es valioso para los Analistas de Control de Calidad (QA) al informar sobre fallos en las ETL suministradas. En conclusión, se logró desarrollar una interfaz gráfica de usuario que cumple con los objetivos establecidos para asegurar la calidad de los datos procesados por la ETL. La herramienta también tiene un potencial significativo para implementarse en otros equipos de pruebas de software y migración de datos, ofreciendo una solución eficiente y confiable para garantizar la exactitud de los datos en procesos similares.The purpose of this document is to highlight the process of creating an automated tool for reviewing and ensuring the quality of data processed by an ETL (Extract, Transform, and Load) system, which is utilized by Banco de Occidente to migrate information from multiple databases to a central database. During this migration process, the data tables are exposed to the risk of corruption due to potential errors in the ETL development. Given the substantial amount of data involved, manually reviewing these tables becomes impractical as they may contain millions of records. In response to this need, the bank's testing team identified the urgency of having a tool to verify the correctness of files before loading them into the destination database. As a solution, a tool was developed using the Python programming language. This tool takes files in .csv format extracted from databases and compares them with data stored in Excel spreadsheets (.xlsx), providing indicators of similarity between both sources. This ensures the integrity of the files once processed. Additionally, the tool offers the option to download a .xlsx file with a boolean table detailing which data has been modified, which is valuable for Quality Control Analysts (QA) when reporting faults in supplied ETLs. In conclusion, a user-friendly interface was successfully developed that meets the established objectives for ensuring the quality of data processed by the ETL. The tool also has significant potential for implementation in other software testing and data migration teams, offering an efficient and reliable solution to ensure data accuracy in similar processes.Ingeniero de TelecomunicacionesPregradoapplication/pdfspaUniversidad Santo TomásPregrado Ingeniería de TelecomunicacionesFacultad de Ingeniería de TelecomunicacionesAtribución-NoComercial-SinDerivadas 2.5 Colombiahttp://creativecommons.org/licenses/by-nc-nd/2.5/co/Abierto (Texto Completo)info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de OccidenteETLPythonQACSVTestingSoftwareDataIngeniería de TelecomunicacionesDatosBancoCalidad-DatosETLPythonQACSVPruebasSoftwareDatosTrabajo de gradoinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:eu-repo/semantics/bachelorThesisCRAI-USTA BogotáAmazon Web Services, Inc. (s.f.). ¿QUÉ ES ETL? - Explicación de extracción, transformación y carga (ETL) - AWS. Recuperado de https://aws.amazon.com/es/what-is/etl/SYDLE. (2021, 9 de abril). Automatización de procesos: ¿cómo funciona? ¿Cuáles son los beneficios? Blog SYDLE. Recuperado de https://www.sydle.com/es/blog/automatizacion-de-procesos-6070ae4c9b901904c4349dcbPowerData - Especialista en Gestión de Datos | MDM | Big Data | Cloud | Data Warehouse. (s.f.). CALIDAD DE Datos. Cómo impulsar tu negocio con los datos. Recuperado de https://www.powerdata.es/calidad-de-datosMicrosoft Learn: Build skills that open doors in your career. (s.f.). USO DE Python para scripting y automatización. Recuperado de https://learn.microsoft.com/es-es/windows/python/scriptingAmazon Web Services, Inc. (s.f.). ¿QUÉ ES Python? - Explicación del lenguaje Python - AWS. Recuperado de https://aws.amazon.com/es/what-is/python/Python documentation. (s.f.). TKINTER – Interface de Python para Tcl/Tk. Recuperado de https://docs.python.org/es/3/library/tkinter.htmlAprende con Alf. (s.f.). LA LIBRERÍA Pandas | Aprende con Alf. Recuperado de https://aprendeconalf.es/docencia/python/manual/pandas/Cardellino, F. (2021, 20 de marzo). La guía definitiva del paquete NumPy para computación científica en Python. freeCodeCamp.org. Recuperado de https://www.freecodecamp.org/espanol/news/la-guia-definitiva-del-paquete-numpy-para-computacion-cientifica-en-python/ORIGINAL2024rayahumada.pdf2024rayahumada.pdfTrabajo de gradoapplication/pdf1521125https://repository.usta.edu.co/bitstream/11634/53911/1/2024rayahumada.pdfe499c987ab7b1c5978a52ffd1c4b70a5MD51open accessCarta Aprobación Facultad.pdfCarta Aprobación Facultad.pdfCarta aprobación facultadapplication/pdf108205https://repository.usta.edu.co/bitstream/11634/53911/2/Carta%20Aprobaci%c3%b3n%20Facultad.pdff283404a7bd5082ed220a2fc3e8a59c6MD52metadata only accessCarta Derechos de Autor.pdfCarta Derechos de Autor.pdfCarta derechos de autorapplication/pdf966559https://repository.usta.edu.co/bitstream/11634/53911/3/Carta%20Derechos%20de%20Autor.pdfa122d13ae6b17c3ce4c346db10e31798MD53metadata only accessCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repository.usta.edu.co/bitstream/11634/53911/4/license_rdf217700a34da79ed616c2feb68d4c5e06MD54open accessLICENSElicense.txtlicense.txttext/plain; charset=utf-8807https://repository.usta.edu.co/bitstream/11634/53911/5/license.txtaedeaf396fcd827b537c73d23464fc27MD55open accessTHUMBNAIL2024rayahumada.pdf.jpg2024rayahumada.pdf.jpgIM Thumbnailimage/jpeg3935https://repository.usta.edu.co/bitstream/11634/53911/6/2024rayahumada.pdf.jpg136aef8aa024b6f93b56459df88f0873MD56open accessCarta Aprobación Facultad.pdf.jpgCarta Aprobación Facultad.pdf.jpgIM Thumbnailimage/jpeg6357https://repository.usta.edu.co/bitstream/11634/53911/7/Carta%20Aprobaci%c3%b3n%20Facultad.pdf.jpge08f718f2ae184da96c5b2f3d376489bMD57open accessCarta Derechos de Autor.pdf.jpgCarta Derechos de Autor.pdf.jpgIM Thumbnailimage/jpeg7797https://repository.usta.edu.co/bitstream/11634/53911/8/Carta%20Derechos%20de%20Autor.pdf.jpg80505cb02bb6019db042bd3a48c30919MD58open access11634/53911oai:repository.usta.edu.co:11634/539112024-02-03 03:30:02.007open accessRepositorio Universidad Santo Tomásnoreply@usta.edu.coQXV0b3Jpem8gYWwgQ2VudHJvIGRlIFJlY3Vyc29zIHBhcmEgZWwgQXByZW5kaXphamUgeSBsYSBJbnZlc3RpZ2FjacOzbiwgQ1JBSS1VU1RBCmRlIGxhIFVuaXZlcnNpZGFkIFNhbnRvIFRvbcOhcywgcGFyYSBxdWUgY29uIGZpbmVzIGFjYWTDqW1pY29zIGFsbWFjZW5lIGxhCmluZm9ybWFjacOzbiBpbmdyZXNhZGEgcHJldmlhbWVudGUuCgpTZSBwZXJtaXRlIGxhIGNvbnN1bHRhLCByZXByb2R1Y2Npw7NuIHBhcmNpYWwsIHRvdGFsIG8gY2FtYmlvIGRlIGZvcm1hdG8gY29uCmZpbmVzIGRlIGNvbnNlcnZhY2nDs24sIGEgbG9zIHVzdWFyaW9zIGludGVyZXNhZG9zIGVuIGVsIGNvbnRlbmlkbyBkZSBlc3RlCnRyYWJham8sIHBhcmEgdG9kb3MgbG9zIHVzb3MgcXVlIHRlbmdhbiBmaW5hbGlkYWQgYWNhZMOpbWljYSwgc2llbXByZSB5IGN1YW5kbwptZWRpYW50ZSBsYSBjb3JyZXNwb25kaWVudGUgY2l0YSBiaWJsaW9ncsOhZmljYSBzZSBsZSBkw6kgY3LDqWRpdG8gYWwgdHJhYmFqbyBkZQpncmFkbyB5IGEgc3UgYXV0b3IuIERlIGNvbmZvcm1pZGFkIGNvbiBsbyBlc3RhYmxlY2lkbyBlbiBlbCBhcnTDrWN1bG8gMzAgZGUgbGEKTGV5IDIzIGRlIDE5ODIgeSBlbCBhcnTDrWN1bG8gMTEgZGUgbGEgRGVjaXNpw7NuIEFuZGluYSAzNTEgZGUgMTk5Mywg4oCcTG9zIGRlcmVjaG9zCm1vcmFsZXMgc29icmUgZWwgdHJhYmFqbyBzb24gcHJvcGllZGFkIGRlIGxvcyBhdXRvcmVz4oCdLCBsb3MgY3VhbGVzIHNvbgppcnJlbnVuY2lhYmxlcywgaW1wcmVzY3JpcHRpYmxlcywgaW5lbWJhcmdhYmxlcyBlIGluYWxpZW5hYmxlcy4K |
