Clasificación taxonómica rápida de organismos del reino animal basada en secuenciación de nueva generación aplicando métodos de aprendizaje de máquina

Sin autorización de uso

Autores:
Martínez Mejía, Diego Andrés
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2021
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/53905
Acceso en línea:
http://hdl.handle.net/1992/53905
Palabra clave:
Taxonomía zoológica
Biología computacional
Redes neuronales convolucionales
Biología
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-sa/4.0/
id UNIANDES2_e27c3982d43166266f3eba8e4e68acae
oai_identifier_str oai:repositorio.uniandes.edu.co:1992/53905
network_acronym_str UNIANDES2
network_name_str Séneca: repositorio Uniandes
repository_id_str
dc.title.spa.fl_str_mv Clasificación taxonómica rápida de organismos del reino animal basada en secuenciación de nueva generación aplicando métodos de aprendizaje de máquina
title Clasificación taxonómica rápida de organismos del reino animal basada en secuenciación de nueva generación aplicando métodos de aprendizaje de máquina
spellingShingle Clasificación taxonómica rápida de organismos del reino animal basada en secuenciación de nueva generación aplicando métodos de aprendizaje de máquina
Taxonomía zoológica
Biología computacional
Redes neuronales convolucionales
Biología
title_short Clasificación taxonómica rápida de organismos del reino animal basada en secuenciación de nueva generación aplicando métodos de aprendizaje de máquina
title_full Clasificación taxonómica rápida de organismos del reino animal basada en secuenciación de nueva generación aplicando métodos de aprendizaje de máquina
title_fullStr Clasificación taxonómica rápida de organismos del reino animal basada en secuenciación de nueva generación aplicando métodos de aprendizaje de máquina
title_full_unstemmed Clasificación taxonómica rápida de organismos del reino animal basada en secuenciación de nueva generación aplicando métodos de aprendizaje de máquina
title_sort Clasificación taxonómica rápida de organismos del reino animal basada en secuenciación de nueva generación aplicando métodos de aprendizaje de máquina
dc.creator.fl_str_mv Martínez Mejía, Diego Andrés
dc.contributor.advisor.none.fl_str_mv Reyes Muñoz, Alejandro
dc.contributor.author.none.fl_str_mv Martínez Mejía, Diego Andrés
dc.subject.armarc.none.fl_str_mv Taxonomía zoológica
Biología computacional
Redes neuronales convolucionales
topic Taxonomía zoológica
Biología computacional
Redes neuronales convolucionales
Biología
dc.subject.themes.none.fl_str_mv Biología
description Sin autorización de uso
publishDate 2021
dc.date.accessioned.none.fl_str_mv 2021-11-03T16:48:02Z
dc.date.available.none.fl_str_mv 2021-11-03T16:48:02Z
dc.date.issued.none.fl_str_mv 2021
dc.type.spa.fl_str_mv Trabajo de grado - Pregrado
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TP
format http://purl.org/coar/resource_type/c_7a1f
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/1992/53905
dc.identifier.pdf.none.fl_str_mv 24948.pdf
dc.identifier.instname.spa.fl_str_mv instname:Universidad de los Andes
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional Séneca
dc.identifier.repourl.spa.fl_str_mv repourl:https://repositorio.uniandes.edu.co/
url http://hdl.handle.net/1992/53905
identifier_str_mv 24948.pdf
instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
repourl:https://repositorio.uniandes.edu.co/
dc.language.iso.none.fl_str_mv spa
language spa
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.none.fl_str_mv 64 páginas
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de los Andes
dc.publisher.program.none.fl_str_mv Biología
dc.publisher.faculty.none.fl_str_mv Facultad de Ciencias
dc.publisher.department.none.fl_str_mv Departamento de Ciencias Biológicas
publisher.none.fl_str_mv Universidad de los Andes
institution Universidad de los Andes
bitstream.url.fl_str_mv https://repositorio.uniandes.edu.co/bitstreams/ae905410-25f5-457d-a15a-36ded0a3e3f2/download
https://repositorio.uniandes.edu.co/bitstreams/1a1312dc-779a-4da4-916f-b470f55568cc/download
https://repositorio.uniandes.edu.co/bitstreams/6c2fc603-dc59-4a2b-a14f-895687596469/download
bitstream.checksum.fl_str_mv 7921f24252c2c34a6391708df5f14d76
d74585a203a143e5429f27eb4392854c
d9d5f47ea7944276eba7cd18caf42836
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio institucional Séneca
repository.mail.fl_str_mv adminrepositorio@uniandes.edu.co
_version_ 1812133942755590144
spelling Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.http://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Reyes Muñoz, Alejandrovirtual::9127-1Martínez Mejía, Diego Andrésaa4d0f97-e656-49a9-9d5e-cc29af77e70e5002021-11-03T16:48:02Z2021-11-03T16:48:02Z2021http://hdl.handle.net/1992/5390524948.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/Sin autorización de usoEl estudio del material genético es un acercamiento promisorio para Thela organización y agrupación taxonómica de los organismos. Generalmente este tipo de aplicaciones emplean técnicas de "barcoding", basados en marcadores genéticos conservados, o en la secuenciación de tipo "shotgun". Sin embargo, estas metodologías están sujetas a la calidad del ADN extraído, cada marcador suele ser específico a cada taxón, o es necesario un proceso de alineamiento y acoplamiento para obtener "contigs" más largos y discriminativos entre los taxa. Debido a esto, el presente trabajo se planteó la creación de una nueva aproximación computacional que fuera capaz de realizar la clasificación taxonómica de dichas secuencias cortas al menos hasta un nivel taxonómico alto, excluyendo procesos de alineamiento. Para lograr esto, se seleccionaron algunos genomas de dos clados diferentes dentro del reino animal, los cuales fueron sometidos a un proceso de fragmentación y submuestreo con el fin de emular una base de datos representativa de la secuenciación "shotgun". Para cada fragmento se extrajo un grupo de características basado en el conteo de dímeros y monómeros. Luego de un proceso de identificación y eliminación de secuencias altamente repetitivas, se construyó una base de datos filtrada. Este tipo de información sirvió como fuente primaria para el entrenamiento de cuatro métodos de clasificación basados en el aprendizaje de máquina, los cuales fueron puestos a prueba en la tarea de asignar cada secuencia a uno de los dos grupos taxonómicos que componían la base de datos. Luego de evaluar diferentes parámetros que permitieran alcanzar el máximo desempeño de clasificación, se determinó que la mejor aproximación era a través de las redes neuronales convolucionales. A partir de esta aproximación se pudo obtener una exactitud de 81%, una precisión de 82.7%, una cobertura de 77.5%, una F medida de 80% y un MCC de 0.615, en la base de datos de prueba.The study of genetic material is a promising approach for the organization and taxonomic grouping of organisms. Generally, these types of applications employ techniques like 'barcoding', based on conserved genetic markers, or 'shotgun' sequencing. Nonetheless, these methodologies are restricted by extracted DNA quality, genetic markers usually are specific for each taxon, or it is necessary a process of aligning and coupling to obtain longer and more discriminative 'contigs' between analyzed taxa. Because of these, the present work has the objective to create a new computational approach capable of accomplishing taxonomic classification of short sequences at high taxonomic levels, at least, excluding alignment processes. To achieve this goal, I selected some genomes from two different clades of the animal kingdom. Posteriorly, these genomes were fragmented and subsampled to emulate a representative database of 'shotgun' sequencing. For each resultant DNA fragment, I extracted a group of numeric features based on monomers and dimers counting. After a process of identification and elimination of highly repetitive sequences, a filtered database was constructed. This information provided a primary source for the training of four classification methods based on machine learning. These methods were tested on the assignation of each sequence to one of the two taxonomic groups that composed the database. After the evaluation of different modeling parameters that could allow reaching the maximal performance of classification, It was determined that the best algorithm was the Convolutional Neuronal Network. Using this approach, it was possible to obtain an ACC of 81%, a precision of 82.7%, a recall of 77.5%, an F1-score of 80%, and an MCC of 0.615, for the final test database.BiólogoPregrado64 páginasapplication/pdfspaUniversidad de los AndesBiologíaFacultad de CienciasDepartamento de Ciencias BiológicasClasificación taxonómica rápida de organismos del reino animal basada en secuenciación de nueva generación aplicando métodos de aprendizaje de máquinaTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesishttp://purl.org/coar/resource_type/c_7a1fhttp://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/TPTaxonomía zoológicaBiología computacionalRedes neuronales convolucionalesBiología201317471Publicationhttps://scholar.google.es/citations?user=hbXF8UEAAAAJvirtual::9127-10000-0003-2907-3265virtual::9127-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000395927virtual::9127-1f71489e5-69f6-4e6b-90a6-c6b1d3fecec7virtual::9127-1f71489e5-69f6-4e6b-90a6-c6b1d3fecec7virtual::9127-1ORIGINAL24948.pdfapplication/pdf3148999https://repositorio.uniandes.edu.co/bitstreams/ae905410-25f5-457d-a15a-36ded0a3e3f2/download7921f24252c2c34a6391708df5f14d76MD51TEXT24948.pdf.txt24948.pdf.txtExtracted texttext/plain152752https://repositorio.uniandes.edu.co/bitstreams/1a1312dc-779a-4da4-916f-b470f55568cc/downloadd74585a203a143e5429f27eb4392854cMD54THUMBNAIL24948.pdf.jpg24948.pdf.jpgIM Thumbnailimage/jpeg7331https://repositorio.uniandes.edu.co/bitstreams/6c2fc603-dc59-4a2b-a14f-895687596469/downloadd9d5f47ea7944276eba7cd18caf42836MD551992/53905oai:repositorio.uniandes.edu.co:1992/539052024-03-13 13:51:19.397http://creativecommons.org/licenses/by-nc-sa/4.0/restrictedhttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co