Herramienta de software para identificación y tipificación de bacterias a partir de información genómica

El objetivo principal de este trabajo se basa en la premisa que, si tuviéramos un paciente que presente una IAAS, del cual se ha podido extraer y aislar la bacteria que genera la infección, pero no sabemos nada sobre ella y suponiendo que en el sitio de atención se cuenta con una herramienta de secu...

Full description

Autores:
Ballén Mejía, Harold Julian
Tipo de recurso:
Fecha de publicación:
2018
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/68632
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/68632
http://bdigital.unal.edu.co/69687/
Palabra clave:
37 Educación / Education
57 Ciencias de la vida; Biología / Life sciences; biology
6 Tecnología (ciencias aplicadas) / Technology
62 Ingeniería y operaciones afines / Engineering
Identificación de bacterias
Tipificación de bacterias
Aprendizaje de máquina
Genoma completo
Identification
Machine learning
Complete genome
Bacterial typing
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
Description
Summary:El objetivo principal de este trabajo se basa en la premisa que, si tuviéramos un paciente que presente una IAAS, del cual se ha podido extraer y aislar la bacteria que genera la infección, pero no sabemos nada sobre ella y suponiendo que en el sitio de atención se cuenta con una herramienta de secuenciación de última generación que permita obtener la secuencia completa del genoma de la bacteria en poco tiempo, se cuente con una herramienta de software que, por un lado, permita realizar la identificación de la especie de la bacteria y por otro, se pueda establecer la similitud que tenga esta con otras de la misma especie, obtenidas de otros aislamientos, para realizar su tipificación. Los insumos, son los datos de la secuenciación del genoma completo una vez hayan sido ensamblados y anotados. Para la identificación, se utiliza un enfoque de aprendizaje de máquina supervisado (AMS), aplicando el algoritmo de Random Forest (Breiman 2001), logrando clasificar las muestras por especie, basado en los elementos genómicos encontrados en el proceso de anotación. Para crear el conjunto de datos de entrenamiento, se toman desde NCBI RefSeq Database, los datos de genomas completos ensamblados de las especies C.difficile, K.pneumoniae, A.baumannii, P.aeruginosa y E.cloacae. Para definir las características a utilizar, se tomaron las secuencias de cada uno de los elementos genómicos y se agruparon utilizando CD-HIT-EST (Fu et al. 2012). Para la tipificación, se realiza un cálculo de la similitud entre muestras, utilizando el número de características que comparten y los porcentajes de identidad que tienen cada una de ellas. Del conjunto de 150 muestras de prueba, todas las que pertenecían a una de las especies seleccionadas, fueron clasificadas correctamente y con especies muy cercanas se obtuvieron buenos resultados. Frente a la tipificación, se pudieron establecer parámetros para delimitar los tipos y disponer de datos que permiten realizar el seguimiento.