Predicción funcional de proteínas hipotéticas de mycobacterium tuberculosis a partir del análisis de datos genómicos y post-genómicos

El tratamiento efectivo de la infección por Mycobacterium tuberculosis (Mtb) se dificulta por la aparición de cepas resistentes a fármacos, por lo cual se hace prioritaria la identificación de nuevos blancos terapéuticos. Muchos de los genes considerados como esenciales y/o candidatos, se encuentran...

Full description

Autores:
Hernández Neuta, Ginna Esmeralda
Tipo de recurso:
Fecha de publicación:
2011
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/7500
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/7500
http://bdigital.unal.edu.co/3886/
Palabra clave:
61 Ciencias médicas; Medicina / Medicine and health
Predicción funcional
Proteínas hipotéticas
Mycobacterium tuberculosis
Métodos kernel
Datos genómicos
Biología computacional / Functional prediction
Hypothetical proteins
Mycobacterium tuberculosis
Kernel methods
Genomic data
Computational biology
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
id UNACIONAL2_291e6e2f1d465db30d84f66aca2374c6
oai_identifier_str oai:repositorio.unal.edu.co:unal/7500
network_acronym_str UNACIONAL2
network_name_str Universidad Nacional de Colombia
repository_id_str
dc.title.spa.fl_str_mv Predicción funcional de proteínas hipotéticas de mycobacterium tuberculosis a partir del análisis de datos genómicos y post-genómicos
dc.title.translated.Spa.fl_str_mv Functional prediction of hypothetical proteins in mycobacterium tuberculosis from genomic and post-genomic data
title Predicción funcional de proteínas hipotéticas de mycobacterium tuberculosis a partir del análisis de datos genómicos y post-genómicos
spellingShingle Predicción funcional de proteínas hipotéticas de mycobacterium tuberculosis a partir del análisis de datos genómicos y post-genómicos
61 Ciencias médicas; Medicina / Medicine and health
Predicción funcional
Proteínas hipotéticas
Mycobacterium tuberculosis
Métodos kernel
Datos genómicos
Biología computacional / Functional prediction
Hypothetical proteins
Mycobacterium tuberculosis
Kernel methods
Genomic data
Computational biology
title_short Predicción funcional de proteínas hipotéticas de mycobacterium tuberculosis a partir del análisis de datos genómicos y post-genómicos
title_full Predicción funcional de proteínas hipotéticas de mycobacterium tuberculosis a partir del análisis de datos genómicos y post-genómicos
title_fullStr Predicción funcional de proteínas hipotéticas de mycobacterium tuberculosis a partir del análisis de datos genómicos y post-genómicos
title_full_unstemmed Predicción funcional de proteínas hipotéticas de mycobacterium tuberculosis a partir del análisis de datos genómicos y post-genómicos
title_sort Predicción funcional de proteínas hipotéticas de mycobacterium tuberculosis a partir del análisis de datos genómicos y post-genómicos
dc.creator.fl_str_mv Hernández Neuta, Ginna Esmeralda
dc.contributor.advisor.none.fl_str_mv Zambrano Eder, María Mercedes
López Kleine, Liliana
dc.contributor.author.spa.fl_str_mv Hernández Neuta, Ginna Esmeralda
dc.subject.ddc.spa.fl_str_mv 61 Ciencias médicas; Medicina / Medicine and health
topic 61 Ciencias médicas; Medicina / Medicine and health
Predicción funcional
Proteínas hipotéticas
Mycobacterium tuberculosis
Métodos kernel
Datos genómicos
Biología computacional / Functional prediction
Hypothetical proteins
Mycobacterium tuberculosis
Kernel methods
Genomic data
Computational biology
dc.subject.proposal.spa.fl_str_mv Predicción funcional
Proteínas hipotéticas
Mycobacterium tuberculosis
Métodos kernel
Datos genómicos
Biología computacional / Functional prediction
Hypothetical proteins
Mycobacterium tuberculosis
Kernel methods
Genomic data
Computational biology
description El tratamiento efectivo de la infección por Mycobacterium tuberculosis (Mtb) se dificulta por la aparición de cepas resistentes a fármacos, por lo cual se hace prioritaria la identificación de nuevos blancos terapéuticos. Muchos de los genes considerados como esenciales y/o candidatos, se encuentran dentro del 30% del genoma de Mtb cuya función se desconoce, lo que dificulta su validación experimental. Los métodos de biología computacional permiten integrar diferentes tipos de datos para identificar relaciones funcionales entre proteínas conocidas y desconocidas. En este trabajo se utilizó el análisis de correlación canónica basado en kernels (ACCK) para integrar información genómica y post-genómica y predecir posibles funciones de proteínas hipotéticas identificadas previamente como exclusivas del complejo M. tuberculosis (CMTB). Los datos genómicos y post-genómicos obtenidos de las bases de datos públicas, incluyeron información sobre vías metabólicas (KI), distancias intergénicas (kdist), perfiles filogenéticos (kphy), microarreglos (kexp) y grupos de proteínas ortólogas (kcog Para hacer las predicciones funcionales se realizó un ACC entre K). I and KII, donde KI corresponde a la parte conocida del grafo metabólico de Mtb y KII corresponde a la integración de los datos genómicos y pos-genómicos recolectados: KII = kdist + kphy + kexp + kcog. El resultado del ACCK es la proyección de las proteínas en un espacio conjunto, en el cual se pueden calcular distancias entre proteínas conocidas y desconocidas. El umbral de predicción se definió como la mayor distancia entre dos proteínas conocidas que participan en una misma vía metabólica. El ACCK dio como resultado una matriz de distancias para 728 proteínas de Mtb que permitió El análisis desarrollado en este trabajó permitió hacer una aproximación a la anotación de proteínas de Mtb de función desconocida a partir de la integración de datos de distinta naturaleza, aportando al conocimiento de la biología de la micobacteria. El ACCK es un método flexible que permitió integrar variables heterogéneas y proponer posibles funciones para las proteínas estudiadas con un error de clasificación aceptable. El siguiente paso es la validación experimental de las funciones predichas. / Abstract. The need for new drugs against Mycobacterium tuberculosis has led to the identification of novel gene targets, many of which are annotated as proteins of unknown function that makes their experimental validation difficult. Computational biology approaches can integrate data of diverse origin and help to predict protein functions. Here we used the kernel canonical correlation analysis (KCCA) to integrate genomic and post-genomic data to predict the function of hypothetical proteins that were previously identified as exclusive of pathogenic strains of the M. tuberculosis complex (MTBC). Data collected from databases included: metabolic pathways (KI), intergenic distances (kdist), phylogenetic profiles (kphy), microarray data (kexp) and cluster of orthologous groups (kcog). The highest distance between two proteins in the same metabolic pathway was used as threshold to define the possible partners of hypothetical proteins. Using KCCA we analyzed 728 M. tuberculosis proteins with correct classification percentage of 78.3%. Hypothetical proteins were functionally associated with proteins involved in metabolism of amino acids, thiamine, purine and pyrimidine, in phenylalanine biosynthesis and oxidative phosphorylation. The functional relationships predicted for all problem proteins were represented as a global network composed of 314 nodes, of which 140 were associated with at least one metabolic pathway. KCCA is a flexible and useful method for integrating heterogeneous data and inferring possible relationships between known and hypothetical proteins of M. tuberculosis with minimal error of classification. These predicted functions must however be further confirmed by experimental validation.
publishDate 2011
dc.date.issued.spa.fl_str_mv 2011
dc.date.accessioned.spa.fl_str_mv 2019-06-24T16:38:19Z
dc.date.available.spa.fl_str_mv 2019-06-24T16:38:19Z
dc.type.spa.fl_str_mv Trabajo de grado - Maestría
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TM
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv https://repositorio.unal.edu.co/handle/unal/7500
dc.identifier.eprints.spa.fl_str_mv http://bdigital.unal.edu.co/3886/
url https://repositorio.unal.edu.co/handle/unal/7500
http://bdigital.unal.edu.co/3886/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.ispartof.spa.fl_str_mv Universidad Nacional de Colombia Sede Bogotá Facultad de Medicina Departamento de Salud Pública
Departamento de Salud Pública
dc.relation.references.spa.fl_str_mv Hernández Neuta, Ginna Esmeralda (2011) Predicción funcional de proteínas hipotéticas de mycobacterium tuberculosis a partir del análisis de datos genómicos y post-genómicos / Functional prediction of hypothetical proteins in mycobacterium tuberculosis from genomic and post-genomic data. Maestría thesis, Universidad Nacional de Colombia.
dc.rights.spa.fl_str_mv Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial 4.0 Internacional
Derechos reservados - Universidad Nacional de Colombia
http://creativecommons.org/licenses/by-nc/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
institution Universidad Nacional de Colombia
bitstream.url.fl_str_mv https://repositorio.unal.edu.co/bitstream/unal/7500/1/598552.2011.pdf
https://repositorio.unal.edu.co/bitstream/unal/7500/2/598552.2011.pdf.jpg
bitstream.checksum.fl_str_mv 979a4e34365b2ce7b61289177530ab98
3b8110aa90aef849545170db21218c72
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv repositorio_nal@unal.edu.co
_version_ 1814089868737773568
spelling Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Zambrano Eder, María Mercedeseaaa772aaec056e7bafa8332d555335c300López Kleine, Liliana9c5b8dea895d5ed7db5c3cb9b48fb925500Hernández Neuta, Ginna Esmeraldacc303fb3-c560-4a30-baae-655492361b073002019-06-24T16:38:19Z2019-06-24T16:38:19Z2011https://repositorio.unal.edu.co/handle/unal/7500http://bdigital.unal.edu.co/3886/El tratamiento efectivo de la infección por Mycobacterium tuberculosis (Mtb) se dificulta por la aparición de cepas resistentes a fármacos, por lo cual se hace prioritaria la identificación de nuevos blancos terapéuticos. Muchos de los genes considerados como esenciales y/o candidatos, se encuentran dentro del 30% del genoma de Mtb cuya función se desconoce, lo que dificulta su validación experimental. Los métodos de biología computacional permiten integrar diferentes tipos de datos para identificar relaciones funcionales entre proteínas conocidas y desconocidas. En este trabajo se utilizó el análisis de correlación canónica basado en kernels (ACCK) para integrar información genómica y post-genómica y predecir posibles funciones de proteínas hipotéticas identificadas previamente como exclusivas del complejo M. tuberculosis (CMTB). Los datos genómicos y post-genómicos obtenidos de las bases de datos públicas, incluyeron información sobre vías metabólicas (KI), distancias intergénicas (kdist), perfiles filogenéticos (kphy), microarreglos (kexp) y grupos de proteínas ortólogas (kcog Para hacer las predicciones funcionales se realizó un ACC entre K). I and KII, donde KI corresponde a la parte conocida del grafo metabólico de Mtb y KII corresponde a la integración de los datos genómicos y pos-genómicos recolectados: KII = kdist + kphy + kexp + kcog. El resultado del ACCK es la proyección de las proteínas en un espacio conjunto, en el cual se pueden calcular distancias entre proteínas conocidas y desconocidas. El umbral de predicción se definió como la mayor distancia entre dos proteínas conocidas que participan en una misma vía metabólica. El ACCK dio como resultado una matriz de distancias para 728 proteínas de Mtb que permitió El análisis desarrollado en este trabajó permitió hacer una aproximación a la anotación de proteínas de Mtb de función desconocida a partir de la integración de datos de distinta naturaleza, aportando al conocimiento de la biología de la micobacteria. El ACCK es un método flexible que permitió integrar variables heterogéneas y proponer posibles funciones para las proteínas estudiadas con un error de clasificación aceptable. El siguiente paso es la validación experimental de las funciones predichas. / Abstract. The need for new drugs against Mycobacterium tuberculosis has led to the identification of novel gene targets, many of which are annotated as proteins of unknown function that makes their experimental validation difficult. Computational biology approaches can integrate data of diverse origin and help to predict protein functions. Here we used the kernel canonical correlation analysis (KCCA) to integrate genomic and post-genomic data to predict the function of hypothetical proteins that were previously identified as exclusive of pathogenic strains of the M. tuberculosis complex (MTBC). Data collected from databases included: metabolic pathways (KI), intergenic distances (kdist), phylogenetic profiles (kphy), microarray data (kexp) and cluster of orthologous groups (kcog). The highest distance between two proteins in the same metabolic pathway was used as threshold to define the possible partners of hypothetical proteins. Using KCCA we analyzed 728 M. tuberculosis proteins with correct classification percentage of 78.3%. Hypothetical proteins were functionally associated with proteins involved in metabolism of amino acids, thiamine, purine and pyrimidine, in phenylalanine biosynthesis and oxidative phosphorylation. The functional relationships predicted for all problem proteins were represented as a global network composed of 314 nodes, of which 140 were associated with at least one metabolic pathway. KCCA is a flexible and useful method for integrating heterogeneous data and inferring possible relationships between known and hypothetical proteins of M. tuberculosis with minimal error of classification. These predicted functions must however be further confirmed by experimental validation.Maestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Bogotá Facultad de Medicina Departamento de Salud PúblicaDepartamento de Salud PúblicaHernández Neuta, Ginna Esmeralda (2011) Predicción funcional de proteínas hipotéticas de mycobacterium tuberculosis a partir del análisis de datos genómicos y post-genómicos / Functional prediction of hypothetical proteins in mycobacterium tuberculosis from genomic and post-genomic data. Maestría thesis, Universidad Nacional de Colombia.61 Ciencias médicas; Medicina / Medicine and healthPredicción funcionalProteínas hipotéticasMycobacterium tuberculosisMétodos kernelDatos genómicosBiología computacional / Functional predictionHypothetical proteinsMycobacterium tuberculosisKernel methodsGenomic dataComputational biologyPredicción funcional de proteínas hipotéticas de mycobacterium tuberculosis a partir del análisis de datos genómicos y post-genómicosFunctional prediction of hypothetical proteins in mycobacterium tuberculosis from genomic and post-genomic dataTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMORIGINAL598552.2011.pdfapplication/pdf3859518https://repositorio.unal.edu.co/bitstream/unal/7500/1/598552.2011.pdf979a4e34365b2ce7b61289177530ab98MD51THUMBNAIL598552.2011.pdf.jpg598552.2011.pdf.jpgGenerated Thumbnailimage/jpeg5350https://repositorio.unal.edu.co/bitstream/unal/7500/2/598552.2011.pdf.jpg3b8110aa90aef849545170db21218c72MD52unal/7500oai:repositorio.unal.edu.co:unal/75002024-09-12 09:23:34.003Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co