Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente
El propósito de este documento es resaltar el proceso de creación de una herramienta automatizada para revisar y asegurar la calidad de los datos procesados por un sistema ETL (Extract, Transform and Load), que es utilizado por el Banco de Occidente para migrar información desde múltiples bases de d...
- Autores:
-
Ahumada Campos, Ray Andres
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2024
- Institución:
- Universidad Santo Tomás
- Repositorio:
- Repositorio Institucional USTA
- Idioma:
- spa
- OAI Identifier:
- oai:repository.usta.edu.co:11634/53911
- Acceso en línea:
- http://hdl.handle.net/11634/53911
- Palabra clave:
- ETL
Python
QA
CSV
Testing
Software
Data
Ingeniería de Telecomunicaciones
Datos
Banco
Calidad-Datos
ETL
Python
QA
CSV
Pruebas
Software
Datos
- Rights
- openAccess
- License
- Atribución-NoComercial-SinDerivadas 2.5 Colombia
| Summary: | El propósito de este documento es resaltar el proceso de creación de una herramienta automatizada para revisar y asegurar la calidad de los datos procesados por un sistema ETL (Extract, Transform and Load), que es utilizado por el Banco de Occidente para migrar información desde múltiples bases de datos hacia una base de datos central. Durante este proceso de migración, las tablas de datos están expuestas al riesgo de corrupción debido a posibles errores en el desarrollo de la ETL. Dada la cantidad sustancial de datos involucrados, revisar manualmente estas tablas se vuelve impracticable, ya que pueden contener millones de registros. En respuesta a esta necesidad, el equipo de pruebas del banco identificó la urgencia de contar con una herramienta para verificar la corrección de los archivos antes de cargarlos en la base de datos de destino. Como solución, se desarrolló una herramienta utilizando el lenguaje de programación Python. Esta herramienta toma archivos en formato .csv extraídos de las bases de datos y los compara con los datos almacenados en hojas de cálculo de Excel (.xlsx), proporcionando indicadores de similitud entre ambas fuentes. Esto asegura la integridad de los archivos una vez procesados. Además, la herramienta ofrece la opción de descargar un archivo en formato .xlsx con una tabla booleana que detalla qué datos han sido modificados, lo cual es valioso para los Analistas de Control de Calidad (QA) al informar sobre fallos en las ETL suministradas. En conclusión, se logró desarrollar una interfaz gráfica de usuario que cumple con los objetivos establecidos para asegurar la calidad de los datos procesados por la ETL. La herramienta también tiene un potencial significativo para implementarse en otros equipos de pruebas de software y migración de datos, ofreciendo una solución eficiente y confiable para garantizar la exactitud de los datos en procesos similares. |
|---|
