Optimización de algoritmos de agrupamiento aplicados a metagenómica usando big data

35 páginas

Autores:
Vanegas Piedrahita, Julián
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2018
Institución:
Universidad EIA .
Repositorio:
Repositorio EIA .
Idioma:
spa
OAI Identifier:
oai:repository.eia.edu.co:11190/2299
Acceso en línea:
https://repository.eia.edu.co/handle/11190/2299
Palabra clave:
Metagenómica
Tensorflow
Spark
K-means
Clusterización
Metagenomics
Clusterization
Rights
openAccess
License
Derechos Reservados - Universidad EIA, 2018
id REIA2_dcb9a57cd003f81f0f2e610451ac13fe
oai_identifier_str oai:repository.eia.edu.co:11190/2299
network_acronym_str REIA2
network_name_str Repositorio EIA .
repository_id_str
dc.title.spa.fl_str_mv Optimización de algoritmos de agrupamiento aplicados a metagenómica usando big data
title Optimización de algoritmos de agrupamiento aplicados a metagenómica usando big data
spellingShingle Optimización de algoritmos de agrupamiento aplicados a metagenómica usando big data
Metagenómica
Tensorflow
Spark
K-means
Clusterización
Metagenomics
Clusterization
title_short Optimización de algoritmos de agrupamiento aplicados a metagenómica usando big data
title_full Optimización de algoritmos de agrupamiento aplicados a metagenómica usando big data
title_fullStr Optimización de algoritmos de agrupamiento aplicados a metagenómica usando big data
title_full_unstemmed Optimización de algoritmos de agrupamiento aplicados a metagenómica usando big data
title_sort Optimización de algoritmos de agrupamiento aplicados a metagenómica usando big data
dc.creator.fl_str_mv Vanegas Piedrahita, Julián
dc.contributor.advisor.spa.fl_str_mv Bonet Cruz, Isis
dc.contributor.author.spa.fl_str_mv Vanegas Piedrahita, Julián
dc.subject.proposal.spa.fl_str_mv Metagenómica
Tensorflow
Spark
K-means
Clusterización
Metagenomics
Clusterization
topic Metagenómica
Tensorflow
Spark
K-means
Clusterización
Metagenomics
Clusterization
description 35 páginas
publishDate 2018
dc.date.issued.spa.fl_str_mv 2018
dc.date.accessioned.spa.fl_str_mv 2019-05-29T16:02:44Z
dc.date.available.spa.fl_str_mv 2019-05-29T16:02:44Z
dc.type.spa.fl_str_mv Trabajo de grado - Pregrado
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv https://purl.org/redcol/resource_type/TP
dc.type.coarversion.spa.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
format http://purl.org/coar/resource_type/c_7a1f
status_str publishedVersion
dc.identifier.uri.spa.fl_str_mv https://repository.eia.edu.co/handle/11190/2299
dc.identifier.bibliographiccitation.spa.fl_str_mv Vanegas Piedrahita, J. (2018). Optimización de algoritmos de agrupamiento aplicados a metagenómica usando big data (Trabajo de grado). Recuperado de: http://repository.eia.edu.co/handle/11190/2299
url https://repository.eia.edu.co/handle/11190/2299
identifier_str_mv Vanegas Piedrahita, J. (2018). Optimización de algoritmos de agrupamiento aplicados a metagenómica usando big data (Trabajo de grado). Recuperado de: http://repository.eia.edu.co/handle/11190/2299
dc.language.iso.spa.fl_str_mv spa
language spa
dc.rights.spa.fl_str_mv Derechos Reservados - Universidad EIA, 2018
dc.rights.uri.spa.fl_str_mv https://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.creativecommons.spa.fl_str_mv Atribución-NoComercial
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv Derechos Reservados - Universidad EIA, 2018
https://creativecommons.org/licenses/by-nc/4.0/
Atribución-NoComercial
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.spa.fl_str_mv Universidad EIA
dc.publisher.department.spa.fl_str_mv Administrativa, Financiera, Sistemas y Computación
dc.publisher.editor.spa.fl_str_mv Envigado (Antioquia, Colombia). Universidad EIA, 2018
dc.publisher.program.spa.fl_str_mv Ingeniería de Sistemas y Computación
institution Universidad EIA .
bitstream.url.fl_str_mv https://repository.eia.edu.co/bitstreams/fdae322d-ea63-48c6-98bf-ce0e776c05a1/download
https://repository.eia.edu.co/bitstreams/68a627d8-e9dc-473e-bb09-867c420475a4/download
https://repository.eia.edu.co/bitstreams/85ff6793-588d-411d-a99d-30bc3a070351/download
https://repository.eia.edu.co/bitstreams/8f01c5aa-a903-4566-be5a-6cd56fa4b12e/download
bitstream.checksum.fl_str_mv e22177318ab642a1e2bcb6e3d5a32e68
23862eabe6bfc41a0d2638399be91253
da9276a8e06ed571bb7fc7c7186cd8fe
2ec492224a1de3006def3fcf3befe6c4
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad EIA
repository.mail.fl_str_mv bdigital@metabiblioteca.com
_version_ 1808400336285597696
spelling Bonet Cruz, Isisc13b9a24cfe250e70b2062e9caa6400d-1Vanegas Piedrahita, Juliánbe3f5fe3ee7490e2b3199e549544d7d2-12019-05-29T16:02:44Z2019-05-29T16:02:44Z2018https://repository.eia.edu.co/handle/11190/2299Vanegas Piedrahita, J. (2018). Optimización de algoritmos de agrupamiento aplicados a metagenómica usando big data (Trabajo de grado). Recuperado de: http://repository.eia.edu.co/handle/11190/229935 páginasEn el campo de la metagenómica, está incrementando el uso de la metagenómica balística como proceso de extracción de cadenas de aminoácidos de microorganismos previamente no identificados, basándose en muestras ambientales de diversas fuentes. Estas cadenas de aminoácidos, debido al proceso de extracción, son separadas en subcadenas de tamaños variables que luego buscan ser comparadas e identificadas con una base de datos para no sólo determinar qué especies ya reconocidas habitan en las muestras tomadas, sino también qué porciones de estas secuencias de aminoácidos no han sido previamente categorizadas. En búsqueda de que este método de identificación produzca mayores resultados, se usan algoritmos de agrupamiento como facilitadores en el proceso de identificación de las diferentes especies. Estos algoritmos agrupan secuencias de aminoácidos que tienen cierto grado de similitud, produciendo clústeres de subcadenas, para que luego estos puedan ser comparados en grupo y ser más rápidamente analizadas. Con el objetivo de mejorar los tiempos de ejecución, se usaron plataformas como Apache Spark y TensorFlow, que dentro de sus librerías incluyen implementaciones nativas de estos algoritmos de agrupamiento. A partir de estas librerías se implementó el K-means iterativo que fue usado como punto de comparación. En los resultados se puede apreciar que el uso de K-means Iterativo mejora la pureza comparado con la alternativa de una sola iteración, para el caso de uso de una base de metagenómica usando los 4mer como rasgos, y usando el coseno como distancia. Debido a este último punto, y a que la implementación de Apache Spark de K-means no tiene la distancia coseno, se utilizó TensorFlow principalmente para la toma de resultados. El uso de TensorFlow muestra una mejora en general de tiempos de ejecución, siendo mucho más significativa en el caso de K-means Iterativo, teniendo como desventaja que requiere mucho más poder de procesamiento.PregradoIngeniero(a) de Sistemas y Computaciónapplication/pdfspaUniversidad EIAAdministrativa, Financiera, Sistemas y ComputaciónEnvigado (Antioquia, Colombia). Universidad EIA, 2018Ingeniería de Sistemas y ComputaciónDerechos Reservados - Universidad EIA, 2018https://creativecommons.org/licenses/by-nc/4.0/El autor de la obra, actuando en nombre propio, hace entrega del ejemplar respectivo y de sus anexos en formato digital o electrónico y autoriza a la ESCUELA DE INGENIERIA DE ANTIOQUIA, para que en los términos establecidos en la Ley 23 de 1982, Ley 44 de 1993, Decisión andina 351 de 1993, Decreto 460 de 1995, y demás normas generales sobre la materia, utilice y use por cualquier medio conocido o por conocer, los derechos patrimoniales de reproducción, comunicación pública, transformación y distribución de la obra objeto del presente documento. PARÁGRAFO: La presente autorización se hace extensiva no sólo a las dependencias y derechos de uso sobre la obra en formato o soporte material, sino también para formato virtual, electrónico, digital, y en red, internet, extranet, intranet, etc., y en general en cualquier formato conocido o por conocer. EL AUTOR, manifiesta que la obra objeto de la presente autorización es original y la realiza sin violar o usurpar derechos de autor de terceros, por lo tanto la obra es de exclusiva autoría y tiene la titularidad sobre la misma. PARÁGRAFO: En caso de presentarse cualquier reclamación o acción por parte de un tercero en cuanto a los derechos de autor sobre la obra en cuestión, EL AUTOR, asumirá toda la responsabilidad, y saldrá en defensa de los derechos aquí autorizados; para todos los efectos la ESCUELA DE INGENIERÍA DE ANTIOQUIA actúa como un tercero de buena fe.info:eu-repo/semantics/openAccessAtribución-NoComercialhttp://purl.org/coar/access_right/c_abf2Optimización de algoritmos de agrupamiento aplicados a metagenómica usando big dataTrabajo de grado - Pregradohttp://purl.org/coar/resource_type/c_7a1finfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionTexthttps://purl.org/redcol/resource_type/TPhttp://purl.org/coar/version/c_970fb48d4fbd8a85MetagenómicaTensorflowSparkK-meansClusterizaciónMetagenomicsClusterizationINFO0070PublicationTHUMBNAILVanegasJulian_2018_OptimizacionAlgoritmosAprupamiento.pdf.jpgVanegasJulian_2018_OptimizacionAlgoritmosAprupamiento.pdf.jpgGenerated Thumbnailimage/jpeg8721https://repository.eia.edu.co/bitstreams/fdae322d-ea63-48c6-98bf-ce0e776c05a1/downloade22177318ab642a1e2bcb6e3d5a32e68MD54ORIGINALVanegasJulian_2018_OptimizacionAlgoritmosAprupamiento.pdfVanegasJulian_2018_OptimizacionAlgoritmosAprupamiento.pdfTrabajo de gradoapplication/pdf1144379https://repository.eia.edu.co/bitstreams/68a627d8-e9dc-473e-bb09-867c420475a4/download23862eabe6bfc41a0d2638399be91253MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82515https://repository.eia.edu.co/bitstreams/85ff6793-588d-411d-a99d-30bc3a070351/downloadda9276a8e06ed571bb7fc7c7186cd8feMD52TEXTVanegasJulian_2018_OptimizacionAlgoritmosAprupamiento.pdf.txtVanegasJulian_2018_OptimizacionAlgoritmosAprupamiento.pdf.txtExtracted texttext/plain64751https://repository.eia.edu.co/bitstreams/8f01c5aa-a903-4566-be5a-6cd56fa4b12e/download2ec492224a1de3006def3fcf3befe6c4MD5311190/2299oai:repository.eia.edu.co:11190/22992023-07-25 17:23:37.099https://creativecommons.org/licenses/by-nc/4.0/Derechos Reservados - Universidad EIA, 2018open.accesshttps://repository.eia.edu.coRepositorio Institucional Universidad EIAbdigital@metabiblioteca.comICAgICAgICAgICAgICAgICAgICAgICAgPGNlbnRlcj5BVklTTyBERSBQUklWQUNJREFEPC9jZW50ZXI+CgpMYSBFc2N1ZWxhIGRlIEluZ2VuaWVyw61hIGRlIEFudGlvcXVpYSBhIHRyYXbDqXMgZGUgZXN0ZSBhdmlzbywgaW5mb3JtYSBhIGxvcyB0aXR1bGFyZXMgZGUgZGF0b3MgcGVyc29uYWxlcyBxdWUgc2UgZW5jdWVudHJlbiBlbiBzdXMgYmFzZXMgZGUgZGF0b3MgcXVlIGxhcyBwb2zDrXRpY2FzIGRlIHRyYXRhbWllbnRvIGRlIGRhdG9zIHBlcnNvbmFsZXMgbGEgRUlBIHNvbjoKCkFsIHRpdHVsYXIgZGUgbG9zIGRhdG9zIHBlcnNvbmFsZXMgZW4gdHJhdGFtaWVudG8sIHNlIGxlIHJlc3BldGFyw6FuIHN1cyBkZXJlY2hvcyBhIGNvbm9jZXIgw61udGVncmFtZW50ZSB5IGRlIGZvcm1hIGdyYXR1aXRhIHN1cyBkYXRvcyBwZXJzb25hbGVzLCBhc8OtIGNvbW8gYSBhY3R1YWxpemFybG9zIHkgcmVjdGlmaWNhcmxvcyBmcmVudGUgYSBsYSBFSUEgbyBsb3MgZW5jYXJnYWRvcyBkZWwgdHJhdGFtaWVudG8uCgpBbCB0aXR1bGFyIGRlIGxvcyBkYXRvcyBwZXJzb25hbGVzIGVuIHRyYXRhbWllbnRvLCBwb2Ryw6EgY29ub2NlciBlbCB1c28gcXVlIHNlIGxlIGhhIGRhZG8gYSBzdXMgZGF0b3MgcGVyc29uYWxlcywgcHJldmlhIHNvbGljaXR1ZC4KCkVsIHRpdHVsYXIgZGUgbG9zIGRhdG9zIHBlcnNvbmFsZXMgZW4gdHJhdGFtaWVudG8sIHBvZHLDoSBzb2xpY2l0YXIgcHJ1ZWJhIGRlIGxhIGF1dG9yaXphY2nDs24gb3RvcmdhZGEgYSBsYSBFSUEuIHNhbHZvIGN1YW5kbyBleHByZXNhbWVudGUgc2UgZXhjZXB0w7plIGNvbW8gcmVxdWlzaXRvIHBhcmEgZWwgdHJhdGFtaWVudG8sIGRlIGNvbmZvcm1pZGFkIGNvbiBsYSBsZXkuCgpFbCB0aXR1bGFyIGRlIGxvcyBkYXRvcyBwdWVkZSByZXZvY2FyIGxhIGF1dG9yaXphY2nDs24geSBzb2xpY2l0YXIgbGEgc3VwcmVzacOzbiBkZWwgZGF0byBjdWFuZG8gZW4gZWwgdHJhdGFtaWVudG8gbm8gc2UgcmVzcGV0ZW4gbG9zIHByaW5jaXBpb3MsIGRlcmVjaG9zIHkgZ2FyYW50w61hcyBjb25zdGl0dWNpb25hbGVzIHkgbGVnYWxlcy4gTGEgcmV2b2NhdG9yaWEgeSBzdXByZXNpw7NuIHByb2NlZGVyw6EgY3VhbmRvIGxhIFN1cGVyaW50ZW5kZW5jaWEgZGUgSW5kdXN0cmlhIHkgQ29tZXJjaW8gKFNJQykgaGF5YSBkZXRlcm1pbmFkbyBxdWUgZW4gZWwgdHJhdGFtaWVudG8sIGxhIEVTQ1VFTEEgREUgSU5HRU5JRVLDjUEgREUgQU5USU9RVUlBIGhhIGluY3VycmlkbyBlbiBjb25kdWN0YXMgY29udHJhcmlhcyBhIGVzdGEgTGV5IHkgYSBsYSBDb25zdGl0dWNpw7NuIFBvbMOtdGljYS4KClBhcmEgZWZlY3RvcyBkZSBlamVyY2VyIHN1cyBkZXJlY2hvcyBkZSBjb25vY2VyLCBhY3R1YWxpemFyLCByZWN0aWZpY2FyIHkgc3VwcmltaXIgaW5mb3JtYWNpw7NuLCByZXZvY2FyIGxhIGF1dG9yaXphY2nDs24sIGVudHJlIG90cm9zOyBlbCB0aXR1bGFyIGRlIGxvcyBkYXRvcyBwb2Ryw6EgYWN1ZGlyIGEgbGEgRVNDVUVMQSBERSBJTkdFTklFUsONQSBERSBBTlRJT1FVSUEsIGNvbW8gcmVzcG9uc2FibGUgZGVsIHRyYXRhbWllbnRvIGRlIGRhdG9zIGFsIMOhcmVhIGRlIGNvbXVuaWNhY2lvbmVzLCBtZWRpYW50ZSBjb3JyZW8gZWxlY3Ryw7NuaWNvIGEgd2VibWFzdGVyQGVpYS5lZHUuY28gLgoKRW4gY2FzbyBkZSBpbmZyYWNjaW9uZXMgYSBsYSBsZXkgMTU4MSBkZSAyMDEyLCBlbCB0aXR1bGFyIGRlIGxvcyBkYXRvcyBwb2Ryw6EgcHJlc2VudGFyIHF1ZWphIGFudGUgbGEgU3VwZXJpbnRlbmRlbmNpYSBkZSBJbmR1c3RyaWEgeSBDb21lcmNpbyAoU0lDKS4KCkVsIHRpdHVsYXIgc2Vyw6EgaW5mb3JtYWRvIGFjZXJjYSBkZSBsYSBubyBvYmxpZ2F0b3JpZWRhZCBkZSBsYXMgcmVzcHVlc3RhcyBhIGxhcyBwcmVndW50YXMgcXVlIGxlIHNlYW4gaGVjaGFzLCBjdWFuZG8gw6lzdGFzIHZlcnNlbiBzb2JyZSBkYXRvcyBzZW5zaWJsZXMsIHRhbGVzIGNvbW8gb3JpZ2VuIHJhY2lhbCBvIMOpdG5pY28sIG9yaWVudGFjacOzbiBwb2zDrXRpY2EsIGNvbnZpY2Npb25lcyByZWxpZ2lvc2FzICwgcGVydGVuZW5jaWEgYSBzaW5kaWNhdG9zLCBvcmdhbml6YWNpb25lcyBzb2NpYWxlcyBkZSBkZXJlY2hvcyBodW1hbm9zLCBkYXRvcyByZWxhdGl2b3MgYSBsYSBzYWx1ZCwgYSBsYSB2aWRhIHNleHVhbCB5IGRhdG9zIGJpb23DqXRyaWNvcyBvIHNvYnJlIGxvcyBkYXRvcyBkZSBsb3MgbmnDsW9zLCBuacOxYXMgeSBhZG9sZXNjZW50ZXMuCgpFbCB0aXR1bGFyIHBvZHLDoSBjb25vY2VyIG51ZXN0cmEgcG9sw610aWNhIGRlIHRyYXRhbWllbnRvLCBsb3MgZGF0b3Mgc3VzdGFuY2lhbGVzIHF1ZSBzZSBsbGVndWVuIGEgcHJvZHVjaXIgZW4gZWwgcHJlc2VudGUgYXZpc28gbyBlbiBsYXMgcG9sw610aWNhcyBkZSB0cmF0YW1pZW50bywgc2Vyw6FuIHB1YmxpY2FkYXMgZW4gbnVlc3RybyBzaXRpbyB3ZWIsIG1lZGlvIGVsZWN0csOzbmljbyBoYWJpdHVhbCBkZSBjb250YWN0byBjb24gbG9zIHRpdHVsYXJlcy4KCg==