Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos

Este proyecto propone una plataforma para el procesamiento de datos biológicos, imple-mentando una estrategia para la ejecución de flujos de procesamiento de información deforma distribuida. Esta plataforma implementa una estrategia de contenedores para el aisla-miento y portabilidad del software de...

Full description

Autores:
Narvaez Prieto, Jonathan Freddy
Tipo de recurso:
Fecha de publicación:
2018
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/68644
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/68644
http://bdigital.unal.edu.co/69707/
Palabra clave:
0 Generalidades / Computer science, information and general works
57 Ciencias de la vida; Biología / Life sciences; biology
6 Tecnología (ciencias aplicadas) / Technology
62 Ingeniería y operaciones afines / Engineering
Flujo de Datos
Sistemas Distribuidos
Almacenamiento Distribuido
Contenedores
Bioinformática
Workflow
Distributed Systems
Distributed Storage
Containers
Bioinformatics
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
id UNACIONAL2_90d78dfff724687a153dc5b4cf701edd
oai_identifier_str oai:repositorio.unal.edu.co:unal/68644
network_acronym_str UNACIONAL2
network_name_str Universidad Nacional de Colombia
repository_id_str
dc.title.spa.fl_str_mv Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos
title Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos
spellingShingle Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos
0 Generalidades / Computer science, information and general works
57 Ciencias de la vida; Biología / Life sciences; biology
6 Tecnología (ciencias aplicadas) / Technology
62 Ingeniería y operaciones afines / Engineering
Flujo de Datos
Sistemas Distribuidos
Almacenamiento Distribuido
Contenedores
Bioinformática
Workflow
Distributed Systems
Distributed Storage
Containers
Bioinformatics
title_short Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos
title_full Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos
title_fullStr Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos
title_full_unstemmed Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos
title_sort Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos
dc.creator.fl_str_mv Narvaez Prieto, Jonathan Freddy
dc.contributor.author.spa.fl_str_mv Narvaez Prieto, Jonathan Freddy
dc.contributor.spa.fl_str_mv Niño Vasquez, Luis Fernando
dc.subject.ddc.spa.fl_str_mv 0 Generalidades / Computer science, information and general works
57 Ciencias de la vida; Biología / Life sciences; biology
6 Tecnología (ciencias aplicadas) / Technology
62 Ingeniería y operaciones afines / Engineering
topic 0 Generalidades / Computer science, information and general works
57 Ciencias de la vida; Biología / Life sciences; biology
6 Tecnología (ciencias aplicadas) / Technology
62 Ingeniería y operaciones afines / Engineering
Flujo de Datos
Sistemas Distribuidos
Almacenamiento Distribuido
Contenedores
Bioinformática
Workflow
Distributed Systems
Distributed Storage
Containers
Bioinformatics
dc.subject.proposal.spa.fl_str_mv Flujo de Datos
Sistemas Distribuidos
Almacenamiento Distribuido
Contenedores
Bioinformática
Workflow
Distributed Systems
Distributed Storage
Containers
Bioinformatics
description Este proyecto propone una plataforma para el procesamiento de datos biológicos, imple-mentando una estrategia para la ejecución de flujos de procesamiento de información deforma distribuida. Esta plataforma implementa una estrategia de contenedores para el aisla-miento y portabilidad del software de bioinformática, aprovecha las caracter ́ısticas de controlque esta tecnología prove; así mismo, el almacenamiento distribuido es una parte central deesta plataforma, lo que permite controlar el acceso de la información a cada uno de los nodosde forma eficiente implementando una estrategia de metadatos que permite una fácil ubicación de los experimentos que quieren ser procesados por cada uno de los nodos del sistemadistribuido. Se implementó un modelo de control de recursos llamadoDominant ResourceFairness(DRF) y de distribución de procesos para sistemas distribuidos llamado Heterogeneous Earliest Finish Time(HEFT). Además, se realizó una prueba con un flujo de procesamiento de datos de RNA-Seq usando datos clínicos deMycobacterium Tuberculosis. La prueba mostró que fue posible abordar unaestrategia distribuida para obtener un mejor rendimiento y tiempos de ejecuci ́on a la horade realizar este tipo de análisis sobre datos biológicos. Se observó que las aplicaciones queno son paralelizables afectan en gran medida el rendimiento, y algunas aplicaciones dentrode la prueba no hacen uso eficiente del almacenamiento, generando grandes bloques de información sobre el sistema de archivos causando algunos problemas
publishDate 2018
dc.date.issued.spa.fl_str_mv 2018-10
dc.date.accessioned.spa.fl_str_mv 2019-07-03T07:22:19Z
dc.date.available.spa.fl_str_mv 2019-07-03T07:22:19Z
dc.type.spa.fl_str_mv Trabajo de grado - Maestría
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TM
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv https://repositorio.unal.edu.co/handle/unal/68644
dc.identifier.eprints.spa.fl_str_mv http://bdigital.unal.edu.co/69707/
url https://repositorio.unal.edu.co/handle/unal/68644
http://bdigital.unal.edu.co/69707/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.ispartof.spa.fl_str_mv Universidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial
Departamento de Ingeniería de Sistemas e Industrial
dc.relation.references.spa.fl_str_mv Narvaez Prieto, Jonathan Freddy (2018) Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos. Maestría thesis, Universidad Nacional de Colombia Sede Bogotá.
dc.rights.spa.fl_str_mv Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial 4.0 Internacional
Derechos reservados - Universidad Nacional de Colombia
http://creativecommons.org/licenses/by-nc/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
institution Universidad Nacional de Colombia
bitstream.url.fl_str_mv https://repositorio.unal.edu.co/bitstream/unal/68644/1/tesis-telecomunicaciones-6.pdf
https://repositorio.unal.edu.co/bitstream/unal/68644/2/tesis-telecomunicaciones-6.pdf.jpg
bitstream.checksum.fl_str_mv 4fdb6d50c541c1ddc52b157dcbbafa4e
8512c5a4defdb58b7475cde2001f7f7a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv repositorio_nal@unal.edu.co
_version_ 1814090220058968064
spelling Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Niño Vasquez, Luis FernandoNarvaez Prieto, Jonathan Freddy3db24439-cbc7-4e4d-b412-2579da0f720d3002019-07-03T07:22:19Z2019-07-03T07:22:19Z2018-10https://repositorio.unal.edu.co/handle/unal/68644http://bdigital.unal.edu.co/69707/Este proyecto propone una plataforma para el procesamiento de datos biológicos, imple-mentando una estrategia para la ejecución de flujos de procesamiento de información deforma distribuida. Esta plataforma implementa una estrategia de contenedores para el aisla-miento y portabilidad del software de bioinformática, aprovecha las caracter ́ısticas de controlque esta tecnología prove; así mismo, el almacenamiento distribuido es una parte central deesta plataforma, lo que permite controlar el acceso de la información a cada uno de los nodosde forma eficiente implementando una estrategia de metadatos que permite una fácil ubicación de los experimentos que quieren ser procesados por cada uno de los nodos del sistemadistribuido. Se implementó un modelo de control de recursos llamadoDominant ResourceFairness(DRF) y de distribución de procesos para sistemas distribuidos llamado Heterogeneous Earliest Finish Time(HEFT). Además, se realizó una prueba con un flujo de procesamiento de datos de RNA-Seq usando datos clínicos deMycobacterium Tuberculosis. La prueba mostró que fue posible abordar unaestrategia distribuida para obtener un mejor rendimiento y tiempos de ejecuci ́on a la horade realizar este tipo de análisis sobre datos biológicos. Se observó que las aplicaciones queno son paralelizables afectan en gran medida el rendimiento, y algunas aplicaciones dentrode la prueba no hacen uso eficiente del almacenamiento, generando grandes bloques de información sobre el sistema de archivos causando algunos problemasAbstract: This project proposes a platform for processing biological data, implementing a strategy for the execution of distributed information processing flows. This platform implements a strategy of containers for the isolation and portability of bioinformatics software and also takes advantage of the control features that this technology provides; in addition, distributed storage is a central part of the platform that allows to control access to the information in each of the nodes efficiently by implementing a metadata strategy that allows an easy location of the experiments that want to be analyzed by each of the nodes corresponding to the distributed system. A resource control model called Dominant Resource Fairness (DRF) and process distribution model for distributed systems called Heterogeneous Earliest Finish Time (HEFT) were implemented. Additionally, a test was performed with a data processing flow for RNA-Seq using clinical data related to Mycobacterium Tuberculosis. The test indicates that it is possible to develop a distributed strategy to obtain better performance and execution times when performing this type of analysis on biological data with a clear information processing flow for the data coming from the information sequencing. It was noted that non-parallelizable applications affect performance to a significant extent, and some applications within the test do not make efficient use of storage by generating large blocks of information about the file system causing some problems.Maestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e IndustrialDepartamento de Ingeniería de Sistemas e IndustrialNarvaez Prieto, Jonathan Freddy (2018) Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos. Maestría thesis, Universidad Nacional de Colombia Sede Bogotá.0 Generalidades / Computer science, information and general works57 Ciencias de la vida; Biología / Life sciences; biology6 Tecnología (ciencias aplicadas) / Technology62 Ingeniería y operaciones afines / EngineeringFlujo de DatosSistemas DistribuidosAlmacenamiento DistribuidoContenedoresBioinformáticaWorkflowDistributed SystemsDistributed StorageContainersBioinformaticsDesarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicosTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMORIGINALtesis-telecomunicaciones-6.pdfapplication/pdf4323580https://repositorio.unal.edu.co/bitstream/unal/68644/1/tesis-telecomunicaciones-6.pdf4fdb6d50c541c1ddc52b157dcbbafa4eMD51THUMBNAILtesis-telecomunicaciones-6.pdf.jpgtesis-telecomunicaciones-6.pdf.jpgGenerated Thumbnailimage/jpeg4736https://repositorio.unal.edu.co/bitstream/unal/68644/2/tesis-telecomunicaciones-6.pdf.jpg8512c5a4defdb58b7475cde2001f7f7aMD52unal/68644oai:repositorio.unal.edu.co:unal/686442023-06-04 23:03:31.391Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co