Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos
Este proyecto propone una plataforma para el procesamiento de datos biológicos, imple-mentando una estrategia para la ejecución de flujos de procesamiento de información deforma distribuida. Esta plataforma implementa una estrategia de contenedores para el aisla-miento y portabilidad del software de...
- Autores:
-
Narvaez Prieto, Jonathan Freddy
- Tipo de recurso:
- Fecha de publicación:
- 2018
- Institución:
- Universidad Nacional de Colombia
- Repositorio:
- Universidad Nacional de Colombia
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unal.edu.co:unal/68644
- Acceso en línea:
- https://repositorio.unal.edu.co/handle/unal/68644
http://bdigital.unal.edu.co/69707/
- Palabra clave:
- 0 Generalidades / Computer science, information and general works
57 Ciencias de la vida; Biología / Life sciences; biology
6 Tecnología (ciencias aplicadas) / Technology
62 Ingeniería y operaciones afines / Engineering
Flujo de Datos
Sistemas Distribuidos
Almacenamiento Distribuido
Contenedores
Bioinformática
Workflow
Distributed Systems
Distributed Storage
Containers
Bioinformatics
- Rights
- openAccess
- License
- Atribución-NoComercial 4.0 Internacional
id |
UNACIONAL2_90d78dfff724687a153dc5b4cf701edd |
---|---|
oai_identifier_str |
oai:repositorio.unal.edu.co:unal/68644 |
network_acronym_str |
UNACIONAL2 |
network_name_str |
Universidad Nacional de Colombia |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos |
title |
Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos |
spellingShingle |
Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos 0 Generalidades / Computer science, information and general works 57 Ciencias de la vida; Biología / Life sciences; biology 6 Tecnología (ciencias aplicadas) / Technology 62 Ingeniería y operaciones afines / Engineering Flujo de Datos Sistemas Distribuidos Almacenamiento Distribuido Contenedores Bioinformática Workflow Distributed Systems Distributed Storage Containers Bioinformatics |
title_short |
Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos |
title_full |
Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos |
title_fullStr |
Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos |
title_full_unstemmed |
Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos |
title_sort |
Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos |
dc.creator.fl_str_mv |
Narvaez Prieto, Jonathan Freddy |
dc.contributor.author.spa.fl_str_mv |
Narvaez Prieto, Jonathan Freddy |
dc.contributor.spa.fl_str_mv |
Niño Vasquez, Luis Fernando |
dc.subject.ddc.spa.fl_str_mv |
0 Generalidades / Computer science, information and general works 57 Ciencias de la vida; Biología / Life sciences; biology 6 Tecnología (ciencias aplicadas) / Technology 62 Ingeniería y operaciones afines / Engineering |
topic |
0 Generalidades / Computer science, information and general works 57 Ciencias de la vida; Biología / Life sciences; biology 6 Tecnología (ciencias aplicadas) / Technology 62 Ingeniería y operaciones afines / Engineering Flujo de Datos Sistemas Distribuidos Almacenamiento Distribuido Contenedores Bioinformática Workflow Distributed Systems Distributed Storage Containers Bioinformatics |
dc.subject.proposal.spa.fl_str_mv |
Flujo de Datos Sistemas Distribuidos Almacenamiento Distribuido Contenedores Bioinformática Workflow Distributed Systems Distributed Storage Containers Bioinformatics |
description |
Este proyecto propone una plataforma para el procesamiento de datos biológicos, imple-mentando una estrategia para la ejecución de flujos de procesamiento de información deforma distribuida. Esta plataforma implementa una estrategia de contenedores para el aisla-miento y portabilidad del software de bioinformática, aprovecha las caracter ́ısticas de controlque esta tecnología prove; así mismo, el almacenamiento distribuido es una parte central deesta plataforma, lo que permite controlar el acceso de la información a cada uno de los nodosde forma eficiente implementando una estrategia de metadatos que permite una fácil ubicación de los experimentos que quieren ser procesados por cada uno de los nodos del sistemadistribuido. Se implementó un modelo de control de recursos llamadoDominant ResourceFairness(DRF) y de distribución de procesos para sistemas distribuidos llamado Heterogeneous Earliest Finish Time(HEFT). Además, se realizó una prueba con un flujo de procesamiento de datos de RNA-Seq usando datos clínicos deMycobacterium Tuberculosis. La prueba mostró que fue posible abordar unaestrategia distribuida para obtener un mejor rendimiento y tiempos de ejecuci ́on a la horade realizar este tipo de análisis sobre datos biológicos. Se observó que las aplicaciones queno son paralelizables afectan en gran medida el rendimiento, y algunas aplicaciones dentrode la prueba no hacen uso eficiente del almacenamiento, generando grandes bloques de información sobre el sistema de archivos causando algunos problemas |
publishDate |
2018 |
dc.date.issued.spa.fl_str_mv |
2018-10 |
dc.date.accessioned.spa.fl_str_mv |
2019-07-03T07:22:19Z |
dc.date.available.spa.fl_str_mv |
2019-07-03T07:22:19Z |
dc.type.spa.fl_str_mv |
Trabajo de grado - Maestría |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/masterThesis |
dc.type.version.spa.fl_str_mv |
info:eu-repo/semantics/acceptedVersion |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/TM |
status_str |
acceptedVersion |
dc.identifier.uri.none.fl_str_mv |
https://repositorio.unal.edu.co/handle/unal/68644 |
dc.identifier.eprints.spa.fl_str_mv |
http://bdigital.unal.edu.co/69707/ |
url |
https://repositorio.unal.edu.co/handle/unal/68644 http://bdigital.unal.edu.co/69707/ |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.spa.fl_str_mv |
Universidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial Departamento de Ingeniería de Sistemas e Industrial |
dc.relation.references.spa.fl_str_mv |
Narvaez Prieto, Jonathan Freddy (2018) Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos. Maestría thesis, Universidad Nacional de Colombia Sede Bogotá. |
dc.rights.spa.fl_str_mv |
Derechos reservados - Universidad Nacional de Colombia |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.license.spa.fl_str_mv |
Atribución-NoComercial 4.0 Internacional |
dc.rights.uri.spa.fl_str_mv |
http://creativecommons.org/licenses/by-nc/4.0/ |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Atribución-NoComercial 4.0 Internacional Derechos reservados - Universidad Nacional de Colombia http://creativecommons.org/licenses/by-nc/4.0/ http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
institution |
Universidad Nacional de Colombia |
bitstream.url.fl_str_mv |
https://repositorio.unal.edu.co/bitstream/unal/68644/1/tesis-telecomunicaciones-6.pdf https://repositorio.unal.edu.co/bitstream/unal/68644/2/tesis-telecomunicaciones-6.pdf.jpg |
bitstream.checksum.fl_str_mv |
4fdb6d50c541c1ddc52b157dcbbafa4e 8512c5a4defdb58b7475cde2001f7f7a |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional Universidad Nacional de Colombia |
repository.mail.fl_str_mv |
repositorio_nal@unal.edu.co |
_version_ |
1814090220058968064 |
spelling |
Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Niño Vasquez, Luis FernandoNarvaez Prieto, Jonathan Freddy3db24439-cbc7-4e4d-b412-2579da0f720d3002019-07-03T07:22:19Z2019-07-03T07:22:19Z2018-10https://repositorio.unal.edu.co/handle/unal/68644http://bdigital.unal.edu.co/69707/Este proyecto propone una plataforma para el procesamiento de datos biológicos, imple-mentando una estrategia para la ejecución de flujos de procesamiento de información deforma distribuida. Esta plataforma implementa una estrategia de contenedores para el aisla-miento y portabilidad del software de bioinformática, aprovecha las caracter ́ısticas de controlque esta tecnología prove; así mismo, el almacenamiento distribuido es una parte central deesta plataforma, lo que permite controlar el acceso de la información a cada uno de los nodosde forma eficiente implementando una estrategia de metadatos que permite una fácil ubicación de los experimentos que quieren ser procesados por cada uno de los nodos del sistemadistribuido. Se implementó un modelo de control de recursos llamadoDominant ResourceFairness(DRF) y de distribución de procesos para sistemas distribuidos llamado Heterogeneous Earliest Finish Time(HEFT). Además, se realizó una prueba con un flujo de procesamiento de datos de RNA-Seq usando datos clínicos deMycobacterium Tuberculosis. La prueba mostró que fue posible abordar unaestrategia distribuida para obtener un mejor rendimiento y tiempos de ejecuci ́on a la horade realizar este tipo de análisis sobre datos biológicos. Se observó que las aplicaciones queno son paralelizables afectan en gran medida el rendimiento, y algunas aplicaciones dentrode la prueba no hacen uso eficiente del almacenamiento, generando grandes bloques de información sobre el sistema de archivos causando algunos problemasAbstract: This project proposes a platform for processing biological data, implementing a strategy for the execution of distributed information processing flows. This platform implements a strategy of containers for the isolation and portability of bioinformatics software and also takes advantage of the control features that this technology provides; in addition, distributed storage is a central part of the platform that allows to control access to the information in each of the nodes efficiently by implementing a metadata strategy that allows an easy location of the experiments that want to be analyzed by each of the nodes corresponding to the distributed system. A resource control model called Dominant Resource Fairness (DRF) and process distribution model for distributed systems called Heterogeneous Earliest Finish Time (HEFT) were implemented. Additionally, a test was performed with a data processing flow for RNA-Seq using clinical data related to Mycobacterium Tuberculosis. The test indicates that it is possible to develop a distributed strategy to obtain better performance and execution times when performing this type of analysis on biological data with a clear information processing flow for the data coming from the information sequencing. It was noted that non-parallelizable applications affect performance to a significant extent, and some applications within the test do not make efficient use of storage by generating large blocks of information about the file system causing some problems.Maestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e IndustrialDepartamento de Ingeniería de Sistemas e IndustrialNarvaez Prieto, Jonathan Freddy (2018) Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos. Maestría thesis, Universidad Nacional de Colombia Sede Bogotá.0 Generalidades / Computer science, information and general works57 Ciencias de la vida; Biología / Life sciences; biology6 Tecnología (ciencias aplicadas) / Technology62 Ingeniería y operaciones afines / EngineeringFlujo de DatosSistemas DistribuidosAlmacenamiento DistribuidoContenedoresBioinformáticaWorkflowDistributed SystemsDistributed StorageContainersBioinformaticsDesarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicosTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMORIGINALtesis-telecomunicaciones-6.pdfapplication/pdf4323580https://repositorio.unal.edu.co/bitstream/unal/68644/1/tesis-telecomunicaciones-6.pdf4fdb6d50c541c1ddc52b157dcbbafa4eMD51THUMBNAILtesis-telecomunicaciones-6.pdf.jpgtesis-telecomunicaciones-6.pdf.jpgGenerated Thumbnailimage/jpeg4736https://repositorio.unal.edu.co/bitstream/unal/68644/2/tesis-telecomunicaciones-6.pdf.jpg8512c5a4defdb58b7475cde2001f7f7aMD52unal/68644oai:repositorio.unal.edu.co:unal/686442023-06-04 23:03:31.391Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co |