Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente

El propósito de este documento es resaltar el proceso de creación de una herramienta automatizada para revisar y asegurar la calidad de los datos procesados por un sistema ETL (Extract, Transform and Load), que es utilizado por el Banco de Occidente para migrar información desde múltiples bases de d...

Full description

Autores:
Ahumada Campos, Ray Andres
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2024
Institución:
Universidad Santo Tomás
Repositorio:
Repositorio Institucional USTA
Idioma:
spa
OAI Identifier:
oai:repository.usta.edu.co:11634/53911
Acceso en línea:
http://hdl.handle.net/11634/53911
Palabra clave:
ETL
Python
QA
CSV
Testing
Software
Data
Ingeniería de Telecomunicaciones
Datos
Banco
Calidad-Datos
ETL
Python
QA
CSV
Pruebas
Software
Datos
Rights
openAccess
License
Atribución-NoComercial-SinDerivadas 2.5 Colombia
Description
Summary:El propósito de este documento es resaltar el proceso de creación de una herramienta automatizada para revisar y asegurar la calidad de los datos procesados por un sistema ETL (Extract, Transform and Load), que es utilizado por el Banco de Occidente para migrar información desde múltiples bases de datos hacia una base de datos central. Durante este proceso de migración, las tablas de datos están expuestas al riesgo de corrupción debido a posibles errores en el desarrollo de la ETL. Dada la cantidad sustancial de datos involucrados, revisar manualmente estas tablas se vuelve impracticable, ya que pueden contener millones de registros. En respuesta a esta necesidad, el equipo de pruebas del banco identificó la urgencia de contar con una herramienta para verificar la corrección de los archivos antes de cargarlos en la base de datos de destino. Como solución, se desarrolló una herramienta utilizando el lenguaje de programación Python. Esta herramienta toma archivos en formato .csv extraídos de las bases de datos y los compara con los datos almacenados en hojas de cálculo de Excel (.xlsx), proporcionando indicadores de similitud entre ambas fuentes. Esto asegura la integridad de los archivos una vez procesados. Además, la herramienta ofrece la opción de descargar un archivo en formato .xlsx con una tabla booleana que detalla qué datos han sido modificados, lo cual es valioso para los Analistas de Control de Calidad (QA) al informar sobre fallos en las ETL suministradas. En conclusión, se logró desarrollar una interfaz gráfica de usuario que cumple con los objetivos establecidos para asegurar la calidad de los datos procesados por la ETL. La herramienta también tiene un potencial significativo para implementarse en otros equipos de pruebas de software y migración de datos, ofreciendo una solución eficiente y confiable para garantizar la exactitud de los datos en procesos similares.