Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos
Este proyecto propone una plataforma para el procesamiento de datos biológicos, imple-mentando una estrategia para la ejecución de flujos de procesamiento de información deforma distribuida. Esta plataforma implementa una estrategia de contenedores para el aisla-miento y portabilidad del software de...
- Autores:
-
Narvaez Prieto, Jonathan Freddy
- Tipo de recurso:
- Fecha de publicación:
- 2018
- Institución:
- Universidad Nacional de Colombia
- Repositorio:
- Universidad Nacional de Colombia
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unal.edu.co:unal/68644
- Acceso en línea:
- https://repositorio.unal.edu.co/handle/unal/68644
http://bdigital.unal.edu.co/69707/
- Palabra clave:
- 0 Generalidades / Computer science, information and general works
57 Ciencias de la vida; Biología / Life sciences; biology
6 Tecnología (ciencias aplicadas) / Technology
62 Ingeniería y operaciones afines / Engineering
Flujo de Datos
Sistemas Distribuidos
Almacenamiento Distribuido
Contenedores
Bioinformática
Workflow
Distributed Systems
Distributed Storage
Containers
Bioinformatics
- Rights
- openAccess
- License
- Atribución-NoComercial 4.0 Internacional
Summary: | Este proyecto propone una plataforma para el procesamiento de datos biológicos, imple-mentando una estrategia para la ejecución de flujos de procesamiento de información deforma distribuida. Esta plataforma implementa una estrategia de contenedores para el aisla-miento y portabilidad del software de bioinformática, aprovecha las caracter ́ısticas de controlque esta tecnología prove; así mismo, el almacenamiento distribuido es una parte central deesta plataforma, lo que permite controlar el acceso de la información a cada uno de los nodosde forma eficiente implementando una estrategia de metadatos que permite una fácil ubicación de los experimentos que quieren ser procesados por cada uno de los nodos del sistemadistribuido. Se implementó un modelo de control de recursos llamadoDominant ResourceFairness(DRF) y de distribución de procesos para sistemas distribuidos llamado Heterogeneous Earliest Finish Time(HEFT). Además, se realizó una prueba con un flujo de procesamiento de datos de RNA-Seq usando datos clínicos deMycobacterium Tuberculosis. La prueba mostró que fue posible abordar unaestrategia distribuida para obtener un mejor rendimiento y tiempos de ejecuci ́on a la horade realizar este tipo de análisis sobre datos biológicos. Se observó que las aplicaciones queno son paralelizables afectan en gran medida el rendimiento, y algunas aplicaciones dentrode la prueba no hacen uso eficiente del almacenamiento, generando grandes bloques de información sobre el sistema de archivos causando algunos problemas |
---|