Clasificación taxonómica rápida de organismos del reino animal basada en secuenciación de nueva generación aplicando métodos de aprendizaje de máquina
Sin autorización de uso
- Autores:
-
Martínez Mejía, Diego Andrés
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2021
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/53905
- Acceso en línea:
- http://hdl.handle.net/1992/53905
- Palabra clave:
- Taxonomía zoológica
Biología computacional
Redes neuronales convolucionales
Biología
- Rights
- openAccess
- License
- http://creativecommons.org/licenses/by-nc-sa/4.0/
id |
UNIANDES2_e27c3982d43166266f3eba8e4e68acae |
---|---|
oai_identifier_str |
oai:repositorio.uniandes.edu.co:1992/53905 |
network_acronym_str |
UNIANDES2 |
network_name_str |
Séneca: repositorio Uniandes |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Clasificación taxonómica rápida de organismos del reino animal basada en secuenciación de nueva generación aplicando métodos de aprendizaje de máquina |
title |
Clasificación taxonómica rápida de organismos del reino animal basada en secuenciación de nueva generación aplicando métodos de aprendizaje de máquina |
spellingShingle |
Clasificación taxonómica rápida de organismos del reino animal basada en secuenciación de nueva generación aplicando métodos de aprendizaje de máquina Taxonomía zoológica Biología computacional Redes neuronales convolucionales Biología |
title_short |
Clasificación taxonómica rápida de organismos del reino animal basada en secuenciación de nueva generación aplicando métodos de aprendizaje de máquina |
title_full |
Clasificación taxonómica rápida de organismos del reino animal basada en secuenciación de nueva generación aplicando métodos de aprendizaje de máquina |
title_fullStr |
Clasificación taxonómica rápida de organismos del reino animal basada en secuenciación de nueva generación aplicando métodos de aprendizaje de máquina |
title_full_unstemmed |
Clasificación taxonómica rápida de organismos del reino animal basada en secuenciación de nueva generación aplicando métodos de aprendizaje de máquina |
title_sort |
Clasificación taxonómica rápida de organismos del reino animal basada en secuenciación de nueva generación aplicando métodos de aprendizaje de máquina |
dc.creator.fl_str_mv |
Martínez Mejía, Diego Andrés |
dc.contributor.advisor.none.fl_str_mv |
Reyes Muñoz, Alejandro |
dc.contributor.author.none.fl_str_mv |
Martínez Mejía, Diego Andrés |
dc.subject.armarc.none.fl_str_mv |
Taxonomía zoológica Biología computacional Redes neuronales convolucionales |
topic |
Taxonomía zoológica Biología computacional Redes neuronales convolucionales Biología |
dc.subject.themes.none.fl_str_mv |
Biología |
description |
Sin autorización de uso |
publishDate |
2021 |
dc.date.accessioned.none.fl_str_mv |
2021-11-03T16:48:02Z |
dc.date.available.none.fl_str_mv |
2021-11-03T16:48:02Z |
dc.date.issued.none.fl_str_mv |
2021 |
dc.type.spa.fl_str_mv |
Trabajo de grado - Pregrado |
dc.type.coarversion.fl_str_mv |
http://purl.org/coar/version/c_970fb48d4fbd8a85 |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
dc.type.coar.spa.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/TP |
format |
http://purl.org/coar/resource_type/c_7a1f |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/1992/53905 |
dc.identifier.pdf.none.fl_str_mv |
24948.pdf |
dc.identifier.instname.spa.fl_str_mv |
instname:Universidad de los Andes |
dc.identifier.reponame.spa.fl_str_mv |
reponame:Repositorio Institucional Séneca |
dc.identifier.repourl.spa.fl_str_mv |
repourl:https://repositorio.uniandes.edu.co/ |
url |
http://hdl.handle.net/1992/53905 |
identifier_str_mv |
24948.pdf instname:Universidad de los Andes reponame:Repositorio Institucional Séneca repourl:https://repositorio.uniandes.edu.co/ |
dc.language.iso.none.fl_str_mv |
spa |
language |
spa |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.coar.spa.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.extent.none.fl_str_mv |
64 páginas |
dc.format.mimetype.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de los Andes |
dc.publisher.program.none.fl_str_mv |
Biología |
dc.publisher.faculty.none.fl_str_mv |
Facultad de Ciencias |
dc.publisher.department.none.fl_str_mv |
Departamento de Ciencias Biológicas |
publisher.none.fl_str_mv |
Universidad de los Andes |
institution |
Universidad de los Andes |
bitstream.url.fl_str_mv |
https://repositorio.uniandes.edu.co/bitstreams/ae905410-25f5-457d-a15a-36ded0a3e3f2/download https://repositorio.uniandes.edu.co/bitstreams/1a1312dc-779a-4da4-916f-b470f55568cc/download https://repositorio.uniandes.edu.co/bitstreams/6c2fc603-dc59-4a2b-a14f-895687596469/download |
bitstream.checksum.fl_str_mv |
7921f24252c2c34a6391708df5f14d76 d74585a203a143e5429f27eb4392854c d9d5f47ea7944276eba7cd18caf42836 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio institucional Séneca |
repository.mail.fl_str_mv |
adminrepositorio@uniandes.edu.co |
_version_ |
1812133942755590144 |
spelling |
Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.http://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Reyes Muñoz, Alejandrovirtual::9127-1Martínez Mejía, Diego Andrésaa4d0f97-e656-49a9-9d5e-cc29af77e70e5002021-11-03T16:48:02Z2021-11-03T16:48:02Z2021http://hdl.handle.net/1992/5390524948.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/Sin autorización de usoEl estudio del material genético es un acercamiento promisorio para Thela organización y agrupación taxonómica de los organismos. Generalmente este tipo de aplicaciones emplean técnicas de "barcoding", basados en marcadores genéticos conservados, o en la secuenciación de tipo "shotgun". Sin embargo, estas metodologías están sujetas a la calidad del ADN extraído, cada marcador suele ser específico a cada taxón, o es necesario un proceso de alineamiento y acoplamiento para obtener "contigs" más largos y discriminativos entre los taxa. Debido a esto, el presente trabajo se planteó la creación de una nueva aproximación computacional que fuera capaz de realizar la clasificación taxonómica de dichas secuencias cortas al menos hasta un nivel taxonómico alto, excluyendo procesos de alineamiento. Para lograr esto, se seleccionaron algunos genomas de dos clados diferentes dentro del reino animal, los cuales fueron sometidos a un proceso de fragmentación y submuestreo con el fin de emular una base de datos representativa de la secuenciación "shotgun". Para cada fragmento se extrajo un grupo de características basado en el conteo de dímeros y monómeros. Luego de un proceso de identificación y eliminación de secuencias altamente repetitivas, se construyó una base de datos filtrada. Este tipo de información sirvió como fuente primaria para el entrenamiento de cuatro métodos de clasificación basados en el aprendizaje de máquina, los cuales fueron puestos a prueba en la tarea de asignar cada secuencia a uno de los dos grupos taxonómicos que componían la base de datos. Luego de evaluar diferentes parámetros que permitieran alcanzar el máximo desempeño de clasificación, se determinó que la mejor aproximación era a través de las redes neuronales convolucionales. A partir de esta aproximación se pudo obtener una exactitud de 81%, una precisión de 82.7%, una cobertura de 77.5%, una F medida de 80% y un MCC de 0.615, en la base de datos de prueba.The study of genetic material is a promising approach for the organization and taxonomic grouping of organisms. Generally, these types of applications employ techniques like 'barcoding', based on conserved genetic markers, or 'shotgun' sequencing. Nonetheless, these methodologies are restricted by extracted DNA quality, genetic markers usually are specific for each taxon, or it is necessary a process of aligning and coupling to obtain longer and more discriminative 'contigs' between analyzed taxa. Because of these, the present work has the objective to create a new computational approach capable of accomplishing taxonomic classification of short sequences at high taxonomic levels, at least, excluding alignment processes. To achieve this goal, I selected some genomes from two different clades of the animal kingdom. Posteriorly, these genomes were fragmented and subsampled to emulate a representative database of 'shotgun' sequencing. For each resultant DNA fragment, I extracted a group of numeric features based on monomers and dimers counting. After a process of identification and elimination of highly repetitive sequences, a filtered database was constructed. This information provided a primary source for the training of four classification methods based on machine learning. These methods were tested on the assignation of each sequence to one of the two taxonomic groups that composed the database. After the evaluation of different modeling parameters that could allow reaching the maximal performance of classification, It was determined that the best algorithm was the Convolutional Neuronal Network. Using this approach, it was possible to obtain an ACC of 81%, a precision of 82.7%, a recall of 77.5%, an F1-score of 80%, and an MCC of 0.615, for the final test database.BiólogoPregrado64 páginasapplication/pdfspaUniversidad de los AndesBiologíaFacultad de CienciasDepartamento de Ciencias BiológicasClasificación taxonómica rápida de organismos del reino animal basada en secuenciación de nueva generación aplicando métodos de aprendizaje de máquinaTrabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesishttp://purl.org/coar/resource_type/c_7a1fhttp://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/TPTaxonomía zoológicaBiología computacionalRedes neuronales convolucionalesBiología201317471Publicationhttps://scholar.google.es/citations?user=hbXF8UEAAAAJvirtual::9127-10000-0003-2907-3265virtual::9127-1https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000395927virtual::9127-1f71489e5-69f6-4e6b-90a6-c6b1d3fecec7virtual::9127-1f71489e5-69f6-4e6b-90a6-c6b1d3fecec7virtual::9127-1ORIGINAL24948.pdfapplication/pdf3148999https://repositorio.uniandes.edu.co/bitstreams/ae905410-25f5-457d-a15a-36ded0a3e3f2/download7921f24252c2c34a6391708df5f14d76MD51TEXT24948.pdf.txt24948.pdf.txtExtracted texttext/plain152752https://repositorio.uniandes.edu.co/bitstreams/1a1312dc-779a-4da4-916f-b470f55568cc/downloadd74585a203a143e5429f27eb4392854cMD54THUMBNAIL24948.pdf.jpg24948.pdf.jpgIM Thumbnailimage/jpeg7331https://repositorio.uniandes.edu.co/bitstreams/6c2fc603-dc59-4a2b-a14f-895687596469/downloadd9d5f47ea7944276eba7cd18caf42836MD551992/53905oai:repositorio.uniandes.edu.co:1992/539052024-03-13 13:51:19.397http://creativecommons.org/licenses/by-nc-sa/4.0/restrictedhttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co |