Estudio de modelos de aprendizaje automático para Tuberculosis en el proceso de Drug Discovery
En este documento se presenta un proyecto de investigación planteado desde el área de la bioinformática, en el que se busca dar una solución a la actual problemática de la drogorresistencia en tres proteínas presentes en cepas resistentes la especie bacteriana Mycobaterium tuberculosis. Se busca pla...
- Autores:
-
Hueza Echeverri, Mateo
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2022
- Institución:
- Escuela Colombiana de Ingeniería Julio Garavito
- Repositorio:
- Repositorio Institucional ECI
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.escuelaing.edu.co:001/2095
- Acceso en línea:
- https://repositorio.escuelaing.edu.co/handle/001/2095
https://catalogo.escuelaing.edu.co/cgi-bin/koha/opac-detail.pl?biblionumber=23085
https://catalogo.escuelaing.edu.co/cgi-bin/koha/opac-detail.pl?biblionumber=23083
- Palabra clave:
- Aprendizaje automático - Tuberculosis
Bioinformatica
Ingeniería biomédica
bioinformática
Aprendizaje automático - Tuberculosis
Ingeniería biomédica
Biomedical engineering
- Rights
- openAccess
- License
- http://purl.org/coar/access_right/c_abf2
Summary: | En este documento se presenta un proyecto de investigación planteado desde el área de la bioinformática, en el que se busca dar una solución a la actual problemática de la drogorresistencia en tres proteínas presentes en cepas resistentes la especie bacteriana Mycobaterium tuberculosis. Se busca plantear y comparar modelos de predicción de valores de pIC50 (escala logarítmica del IC50), que hace referencia a la concentración necesaria del fármaco para disminuir la actividad de la proteína en un 50 %. Esta predicción servirá para nuevos fármacos, tomando como punto de partida la estructura molecular de compuestos químicos ya conocidos. Para ello se caracterizan con los datos provenientes de la base ChEMBL[3] y que tengan como proteína objetivo las proteínas N-Acetiltransferasa codificada por el gen eis, la ATP sintentasa subunidad c codificada por el gen atpE y por la Subunidad beta de ARN polimerasa dirigida por ADN codificada por el gen rpoB. Se esocogen estas proteínas dado que en ellas se presenta la resistencia a ciertos fármacos bactericidas de segunda y tercera línea. A cada compuesto se le calculan descriptores relacionados con la ley de lipinski: el peso molecular (MW), número de donadores de enlaces por puentes de hidrógeno (NumHDonnors), número de aceptores de enlaces por puentes de hidrógeno (NumHAcceptors) y el coeficinente de reparto octanol/agua (LogP); de igual manera se calcula una huella que cuenta con 881 descriptores que junto con los cuatro ya mencionados, se toman como la entrada de los modelos de regresión a plantear y los valores de pIC50 conocidos se toman como salida. Lo anterior corresponde al conjunto de entrenamiento con el que se generan diferentes modelos de regresión para esta predicción del pIC50. Para finalizar se comparan las características de funcionamiento de los modelos para así establecer los más adecuados para la problemática. |
---|