Herramienta de software para identificación y tipificación de bacterias a partir de información genómica
El objetivo principal de este trabajo se basa en la premisa que, si tuviéramos un paciente que presente una IAAS, del cual se ha podido extraer y aislar la bacteria que genera la infección, pero no sabemos nada sobre ella y suponiendo que en el sitio de atención se cuenta con una herramienta de secu...
- Autores:
-
Ballén Mejía, Harold Julian
- Tipo de recurso:
- Fecha de publicación:
- 2018
- Institución:
- Universidad Nacional de Colombia
- Repositorio:
- Universidad Nacional de Colombia
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unal.edu.co:unal/68632
- Acceso en línea:
- https://repositorio.unal.edu.co/handle/unal/68632
http://bdigital.unal.edu.co/69687/
- Palabra clave:
- 37 Educación / Education
57 Ciencias de la vida; Biología / Life sciences; biology
6 Tecnología (ciencias aplicadas) / Technology
62 Ingeniería y operaciones afines / Engineering
Identificación de bacterias
Tipificación de bacterias
Aprendizaje de máquina
Genoma completo
Identification
Machine learning
Complete genome
Bacterial typing
- Rights
- openAccess
- License
- Atribución-NoComercial 4.0 Internacional
id |
UNACIONAL2_7576ce873b8500538863647000f9d203 |
---|---|
oai_identifier_str |
oai:repositorio.unal.edu.co:unal/68632 |
network_acronym_str |
UNACIONAL2 |
network_name_str |
Universidad Nacional de Colombia |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Herramienta de software para identificación y tipificación de bacterias a partir de información genómica |
title |
Herramienta de software para identificación y tipificación de bacterias a partir de información genómica |
spellingShingle |
Herramienta de software para identificación y tipificación de bacterias a partir de información genómica 37 Educación / Education 57 Ciencias de la vida; Biología / Life sciences; biology 6 Tecnología (ciencias aplicadas) / Technology 62 Ingeniería y operaciones afines / Engineering Identificación de bacterias Tipificación de bacterias Aprendizaje de máquina Genoma completo Identification Machine learning Complete genome Bacterial typing |
title_short |
Herramienta de software para identificación y tipificación de bacterias a partir de información genómica |
title_full |
Herramienta de software para identificación y tipificación de bacterias a partir de información genómica |
title_fullStr |
Herramienta de software para identificación y tipificación de bacterias a partir de información genómica |
title_full_unstemmed |
Herramienta de software para identificación y tipificación de bacterias a partir de información genómica |
title_sort |
Herramienta de software para identificación y tipificación de bacterias a partir de información genómica |
dc.creator.fl_str_mv |
Ballén Mejía, Harold Julian |
dc.contributor.author.spa.fl_str_mv |
Ballén Mejía, Harold Julian |
dc.contributor.spa.fl_str_mv |
Barreto Hernandez, Emiliano |
dc.subject.ddc.spa.fl_str_mv |
37 Educación / Education 57 Ciencias de la vida; Biología / Life sciences; biology 6 Tecnología (ciencias aplicadas) / Technology 62 Ingeniería y operaciones afines / Engineering |
topic |
37 Educación / Education 57 Ciencias de la vida; Biología / Life sciences; biology 6 Tecnología (ciencias aplicadas) / Technology 62 Ingeniería y operaciones afines / Engineering Identificación de bacterias Tipificación de bacterias Aprendizaje de máquina Genoma completo Identification Machine learning Complete genome Bacterial typing |
dc.subject.proposal.spa.fl_str_mv |
Identificación de bacterias Tipificación de bacterias Aprendizaje de máquina Genoma completo Identification Machine learning Complete genome Bacterial typing |
description |
El objetivo principal de este trabajo se basa en la premisa que, si tuviéramos un paciente que presente una IAAS, del cual se ha podido extraer y aislar la bacteria que genera la infección, pero no sabemos nada sobre ella y suponiendo que en el sitio de atención se cuenta con una herramienta de secuenciación de última generación que permita obtener la secuencia completa del genoma de la bacteria en poco tiempo, se cuente con una herramienta de software que, por un lado, permita realizar la identificación de la especie de la bacteria y por otro, se pueda establecer la similitud que tenga esta con otras de la misma especie, obtenidas de otros aislamientos, para realizar su tipificación. Los insumos, son los datos de la secuenciación del genoma completo una vez hayan sido ensamblados y anotados. Para la identificación, se utiliza un enfoque de aprendizaje de máquina supervisado (AMS), aplicando el algoritmo de Random Forest (Breiman 2001), logrando clasificar las muestras por especie, basado en los elementos genómicos encontrados en el proceso de anotación. Para crear el conjunto de datos de entrenamiento, se toman desde NCBI RefSeq Database, los datos de genomas completos ensamblados de las especies C.difficile, K.pneumoniae, A.baumannii, P.aeruginosa y E.cloacae. Para definir las características a utilizar, se tomaron las secuencias de cada uno de los elementos genómicos y se agruparon utilizando CD-HIT-EST (Fu et al. 2012). Para la tipificación, se realiza un cálculo de la similitud entre muestras, utilizando el número de características que comparten y los porcentajes de identidad que tienen cada una de ellas. Del conjunto de 150 muestras de prueba, todas las que pertenecían a una de las especies seleccionadas, fueron clasificadas correctamente y con especies muy cercanas se obtuvieron buenos resultados. Frente a la tipificación, se pudieron establecer parámetros para delimitar los tipos y disponer de datos que permiten realizar el seguimiento. |
publishDate |
2018 |
dc.date.issued.spa.fl_str_mv |
2018 |
dc.date.accessioned.spa.fl_str_mv |
2019-07-03T07:20:15Z |
dc.date.available.spa.fl_str_mv |
2019-07-03T07:20:15Z |
dc.type.spa.fl_str_mv |
Trabajo de grado - Maestría |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/masterThesis |
dc.type.version.spa.fl_str_mv |
info:eu-repo/semantics/acceptedVersion |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/TM |
status_str |
acceptedVersion |
dc.identifier.uri.none.fl_str_mv |
https://repositorio.unal.edu.co/handle/unal/68632 |
dc.identifier.eprints.spa.fl_str_mv |
http://bdigital.unal.edu.co/69687/ |
url |
https://repositorio.unal.edu.co/handle/unal/68632 http://bdigital.unal.edu.co/69687/ |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.spa.fl_str_mv |
Universidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial Departamento de Ingeniería de Sistemas e Industrial |
dc.relation.references.spa.fl_str_mv |
Ballén Mejía, Harold Julian (2018) Herramienta de software para identificación y tipificación de bacterias a partir de información genómica. Maestría thesis, Universidad Nacional de Colombia - Sede Bogotá. |
dc.rights.spa.fl_str_mv |
Derechos reservados - Universidad Nacional de Colombia |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.license.spa.fl_str_mv |
Atribución-NoComercial 4.0 Internacional |
dc.rights.uri.spa.fl_str_mv |
http://creativecommons.org/licenses/by-nc/4.0/ |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Atribución-NoComercial 4.0 Internacional Derechos reservados - Universidad Nacional de Colombia http://creativecommons.org/licenses/by-nc/4.0/ http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
institution |
Universidad Nacional de Colombia |
bitstream.url.fl_str_mv |
https://repositorio.unal.edu.co/bitstream/unal/68632/1/80040320.2018.pdf https://repositorio.unal.edu.co/bitstream/unal/68632/2/80040320.2018.pdf.jpg |
bitstream.checksum.fl_str_mv |
893521e7075fb0f3eea2f30260dc29bf 4b9ce43353d5df84ea5a8802272d7fdc |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional Universidad Nacional de Colombia |
repository.mail.fl_str_mv |
repositorio_nal@unal.edu.co |
_version_ |
1814090214272925696 |
spelling |
Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Barreto Hernandez, EmilianoBallén Mejía, Harold Julianc6c4ac7f-6351-44f3-9e0a-cba7f975eb013002019-07-03T07:20:15Z2019-07-03T07:20:15Z2018https://repositorio.unal.edu.co/handle/unal/68632http://bdigital.unal.edu.co/69687/El objetivo principal de este trabajo se basa en la premisa que, si tuviéramos un paciente que presente una IAAS, del cual se ha podido extraer y aislar la bacteria que genera la infección, pero no sabemos nada sobre ella y suponiendo que en el sitio de atención se cuenta con una herramienta de secuenciación de última generación que permita obtener la secuencia completa del genoma de la bacteria en poco tiempo, se cuente con una herramienta de software que, por un lado, permita realizar la identificación de la especie de la bacteria y por otro, se pueda establecer la similitud que tenga esta con otras de la misma especie, obtenidas de otros aislamientos, para realizar su tipificación. Los insumos, son los datos de la secuenciación del genoma completo una vez hayan sido ensamblados y anotados. Para la identificación, se utiliza un enfoque de aprendizaje de máquina supervisado (AMS), aplicando el algoritmo de Random Forest (Breiman 2001), logrando clasificar las muestras por especie, basado en los elementos genómicos encontrados en el proceso de anotación. Para crear el conjunto de datos de entrenamiento, se toman desde NCBI RefSeq Database, los datos de genomas completos ensamblados de las especies C.difficile, K.pneumoniae, A.baumannii, P.aeruginosa y E.cloacae. Para definir las características a utilizar, se tomaron las secuencias de cada uno de los elementos genómicos y se agruparon utilizando CD-HIT-EST (Fu et al. 2012). Para la tipificación, se realiza un cálculo de la similitud entre muestras, utilizando el número de características que comparten y los porcentajes de identidad que tienen cada una de ellas. Del conjunto de 150 muestras de prueba, todas las que pertenecían a una de las especies seleccionadas, fueron clasificadas correctamente y con especies muy cercanas se obtuvieron buenos resultados. Frente a la tipificación, se pudieron establecer parámetros para delimitar los tipos y disponer de datos que permiten realizar el seguimiento.Abstract: The main objective of this work is based on the premise that, if we had a patient that presents an IAAS, from which it has been possible to extract and isolate the bacte ria that generates the infection, but there is nothing about it and assuming that on the site of a tool that allows to obtain the complete sequence of the genome of the bacterium in a short time, allows to use a software tool that, on the one hand, allows to make the identification of the bacteria of the species and on the other, it can be established the similarity that have this with other people of the same species, in addition to other isolations, to perform their typing. The inputs are the data of the sequencing of the complete genome once they have been assembled and annotated. For the identification, applying the algorithm of Random Forest (Breiman 2001), managing to classify the samples by species, based on the genomic elements found in the annotati on process. To create the training data set, data from assembled complete genomes of the species C.difficile, K.pneumoniae, A.baumannii, P.aeruginosa and E.cloacae are taken from the NCBI RefSeq Database. To define the characteristics to be used, the seque nces of each element of the genomic elements were taken and grouped using CD - HIT - EST (Fu and others, 2012). For typing, a similarity between samples is calculated, using the number of characteristics they share and the percentages of identity that each one has. From the set of 150 test samples, all those belonging to one of the selected species were classified correctly and with very close, good results were obtained. In front of the typing, parameters can be established to delimit the types and the availa ble data that allow tracking.Maestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e IndustrialDepartamento de Ingeniería de Sistemas e IndustrialBallén Mejía, Harold Julian (2018) Herramienta de software para identificación y tipificación de bacterias a partir de información genómica. Maestría thesis, Universidad Nacional de Colombia - Sede Bogotá.37 Educación / Education57 Ciencias de la vida; Biología / Life sciences; biology6 Tecnología (ciencias aplicadas) / Technology62 Ingeniería y operaciones afines / EngineeringIdentificación de bacteriasTipificación de bacteriasAprendizaje de máquinaGenoma completoIdentificationMachine learningComplete genomeBacterial typingHerramienta de software para identificación y tipificación de bacterias a partir de información genómicaTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMORIGINAL80040320.2018.pdfapplication/pdf2258359https://repositorio.unal.edu.co/bitstream/unal/68632/1/80040320.2018.pdf893521e7075fb0f3eea2f30260dc29bfMD51THUMBNAIL80040320.2018.pdf.jpg80040320.2018.pdf.jpgGenerated Thumbnailimage/jpeg5176https://repositorio.unal.edu.co/bitstream/unal/68632/2/80040320.2018.pdf.jpg4b9ce43353d5df84ea5a8802272d7fdcMD52unal/68632oai:repositorio.unal.edu.co:unal/686322024-05-27 23:09:51.638Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co |