Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform

En esta tesis se propone un método para la predicción de anotaciones de proteínas a partir de la estimación de características en secuencias biológicas. Dicha estimación emplea información sobre la estructura de las proteínas a partir de las estadísticas de contactos potenciales entre pares de amino...

Full description

Autores:
Arango Argoty, Gustavo Alonso
Tipo de recurso:
Fecha de publicación:
2014
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/75302
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/75302
http://bdigital.unal.edu.co/39867/
Palabra clave:
51 Matemáticas / Mathematics
54 Química y ciencias afines / Chemistry
62 Ingeniería y operaciones afines / Engineering
Transformada wavelet continua
Potenciales de contacto estadísticos
Prediccion de proteínas
Máquinas de vectores de soporte
Alineamiento de secuencias
Continuous wavelet transform
Statistical contact potentials
Protein prediction
Support vector machine
Sequence alignment
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
id UNACIONAL2_453f9f67b839a3c611d6ba3b0a1bfea7
oai_identifier_str oai:repositorio.unal.edu.co:unal/75302
network_acronym_str UNACIONAL2
network_name_str Universidad Nacional de Colombia
repository_id_str
dc.title.spa.fl_str_mv Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform
title Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform
spellingShingle Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform
51 Matemáticas / Mathematics
54 Química y ciencias afines / Chemistry
62 Ingeniería y operaciones afines / Engineering
Transformada wavelet continua
Potenciales de contacto estadísticos
Prediccion de proteínas
Máquinas de vectores de soporte
Alineamiento de secuencias
Continuous wavelet transform
Statistical contact potentials
Protein prediction
Support vector machine
Sequence alignment
title_short Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform
title_full Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform
title_fullStr Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform
title_full_unstemmed Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform
title_sort Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform
dc.creator.fl_str_mv Arango Argoty, Gustavo Alonso
dc.contributor.advisor.spa.fl_str_mv Castellanos Domínguez, César Germán (Thesis advisor)
dc.contributor.author.spa.fl_str_mv Arango Argoty, Gustavo Alonso
dc.subject.ddc.spa.fl_str_mv 51 Matemáticas / Mathematics
54 Química y ciencias afines / Chemistry
62 Ingeniería y operaciones afines / Engineering
topic 51 Matemáticas / Mathematics
54 Química y ciencias afines / Chemistry
62 Ingeniería y operaciones afines / Engineering
Transformada wavelet continua
Potenciales de contacto estadísticos
Prediccion de proteínas
Máquinas de vectores de soporte
Alineamiento de secuencias
Continuous wavelet transform
Statistical contact potentials
Protein prediction
Support vector machine
Sequence alignment
dc.subject.proposal.spa.fl_str_mv Transformada wavelet continua
Potenciales de contacto estadísticos
Prediccion de proteínas
Máquinas de vectores de soporte
Alineamiento de secuencias
Continuous wavelet transform
Statistical contact potentials
Protein prediction
Support vector machine
Sequence alignment
description En esta tesis se propone un método para la predicción de anotaciones de proteínas a partir de la estimación de características en secuencias biológicas. Dicha estimación emplea información sobre la estructura de las proteínas a partir de las estadísticas de contactos potenciales entre pares de aminoácidos. Inicialmente, una proteína es transformada a una serie numérica por medio de estos contactos potenciales. Debido a las interacciones entre aminoácidos cercanos, la transformada wavelet puede fácilmente detectar las subsecuencias pertenecientes a posiciones específicas a lo largo de la proteína. Así, todas las subsecuencias son agrupadas de acuerdo a su distribución y estos grupos son modelados empleando perfiles de Modelos Ocultos de Markov. Finalmente, los perfiles son usados como características donde proteínas de análisis son mapeadas generando así un espacio de representación que es usado para entrenar un clasificador basado en vectores de soporte. La metodología ha sido rigurosamente evaluada y comparada con tres diferentes criterios de caracterización: 1) características globales comúnmente usadas para representar proteínas, 2) características específicas como motivos y dominios, y por último 3) evaluación de el rendimiento de varios programas construidos para la predicción de anotación de proteínas. Como resultado el método propuesto ha logrado los mas altos puntajes de predicción en la mayoría de los casos de estudio. De manera que estas predicciones sugieren a nuestro método como una alternativa a los comúnmente usados algoritmos de caracterización. Por otra parte, a pesar de que el enfoque de la metodología esta diseñada para resolver problemas de clasificación, la comunidad científica puede hacer uso de ella en dos diferentes enfoques: 1) como un predictor de anotaciones en proteínas y 2) como una herramienta para encontrar motivos. Por último, el código fuente del método se encuentra para libre descarga en: http://sourceforge.net/projects/wamofi/?source=navbar
publishDate 2014
dc.date.issued.spa.fl_str_mv 2014
dc.date.accessioned.spa.fl_str_mv 2019-07-03T19:31:02Z
dc.date.available.spa.fl_str_mv 2019-07-03T19:31:02Z
dc.type.spa.fl_str_mv Trabajo de grado - Maestría
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TM
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv https://repositorio.unal.edu.co/handle/unal/75302
dc.identifier.eprints.spa.fl_str_mv http://bdigital.unal.edu.co/39867/
url https://repositorio.unal.edu.co/handle/unal/75302
http://bdigital.unal.edu.co/39867/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.ispartof.spa.fl_str_mv Universidad Nacional de Colombia Sede Manizales Facultad de Ingeniería y Arquitectura Departamento de Ingeniería Eléctrica, Electrónica y Computación Ingeniería Electrónica
Ingeniería Electrónica
dc.relation.references.spa.fl_str_mv Arango Argoty, Gustavo Alonso (2014) Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform. Maestría thesis, Universidad Nacional de Colombia - Sede Manizales.
dc.rights.spa.fl_str_mv Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial 4.0 Internacional
Derechos reservados - Universidad Nacional de Colombia
http://creativecommons.org/licenses/by-nc/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
institution Universidad Nacional de Colombia
bitstream.url.fl_str_mv https://repositorio.unal.edu.co/bitstream/unal/75302/1/710123.2014.pdf
https://repositorio.unal.edu.co/bitstream/unal/75302/2/710123.2014.pdf.jpg
bitstream.checksum.fl_str_mv 07472bf0b414bae69086a6a415a08951
025ce54cb86e5332b38767bb9179d851
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv repositorio_nal@unal.edu.co
_version_ 1814090178319351808
spelling Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Castellanos Domínguez, César Germán (Thesis advisor)c792a029-43aa-4eb1-ac01-0b8ac24a537e-1Arango Argoty, Gustavo Alonso72694f18-6225-4243-8a17-02094bf8ee133002019-07-03T19:31:02Z2019-07-03T19:31:02Z2014https://repositorio.unal.edu.co/handle/unal/75302http://bdigital.unal.edu.co/39867/En esta tesis se propone un método para la predicción de anotaciones de proteínas a partir de la estimación de características en secuencias biológicas. Dicha estimación emplea información sobre la estructura de las proteínas a partir de las estadísticas de contactos potenciales entre pares de aminoácidos. Inicialmente, una proteína es transformada a una serie numérica por medio de estos contactos potenciales. Debido a las interacciones entre aminoácidos cercanos, la transformada wavelet puede fácilmente detectar las subsecuencias pertenecientes a posiciones específicas a lo largo de la proteína. Así, todas las subsecuencias son agrupadas de acuerdo a su distribución y estos grupos son modelados empleando perfiles de Modelos Ocultos de Markov. Finalmente, los perfiles son usados como características donde proteínas de análisis son mapeadas generando así un espacio de representación que es usado para entrenar un clasificador basado en vectores de soporte. La metodología ha sido rigurosamente evaluada y comparada con tres diferentes criterios de caracterización: 1) características globales comúnmente usadas para representar proteínas, 2) características específicas como motivos y dominios, y por último 3) evaluación de el rendimiento de varios programas construidos para la predicción de anotación de proteínas. Como resultado el método propuesto ha logrado los mas altos puntajes de predicción en la mayoría de los casos de estudio. De manera que estas predicciones sugieren a nuestro método como una alternativa a los comúnmente usados algoritmos de caracterización. Por otra parte, a pesar de que el enfoque de la metodología esta diseñada para resolver problemas de clasificación, la comunidad científica puede hacer uso de ella en dos diferentes enfoques: 1) como un predictor de anotaciones en proteínas y 2) como una herramienta para encontrar motivos. Por último, el código fuente del método se encuentra para libre descarga en: http://sourceforge.net/projects/wamofi/?source=navbarAbstract : In this thesis, a method to predict semantic annotations of the proteins from its primary structure is proposed. The main contribution of this thesis lies in the implementation of a novel protein feature representation, which makes use of the pairwise statistical contact potentials describing the protein interactions and geometry at the atomic level. Initially, a protein sequence is decomposed into a numerical series by a contact potential. From the interactions between adjacent amino acids, the wavelet transform can easily detect and characterize subsequences at specific position along the protein sequence. Then, all subsequences are grouped into clusters and a Hidden Markov Model (HMM) profile is built for each one of the groups. Finally, the modeled profiles HMM are used as features in order to build a feature space with the aim to train and evaluate a support vector machine classifier. Evaluations of the proposed methodology are driven against three different views 1) known protein features 2) motif-domain based features (PFam terms) and 3) performance evaluation over several methods for protein annotation prediction. As result, The method have acquired the highest performance prediction in most of the study cases. Thus, this efficiency suggest our approach as an alternative method for the characterization of protein sequences. Although, the research in this thesis focuses on the classification problem, the scientific community can make use of the methodology in two different ways: 1) as a protein predictor and 2) as a motif finding tool. Finally, the source code of the method is free available for download at SourceForge http://sourceforge.net/projects/wamofi/?source=navbarMaestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Manizales Facultad de Ingeniería y Arquitectura Departamento de Ingeniería Eléctrica, Electrónica y Computación Ingeniería ElectrónicaIngeniería ElectrónicaArango Argoty, Gustavo Alonso (2014) Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform. Maestría thesis, Universidad Nacional de Colombia - Sede Manizales.51 Matemáticas / Mathematics54 Química y ciencias afines / Chemistry62 Ingeniería y operaciones afines / EngineeringTransformada wavelet continuaPotenciales de contacto estadísticosPrediccion de proteínasMáquinas de vectores de soporteAlineamiento de secuenciasContinuous wavelet transformStatistical contact potentialsProtein predictionSupport vector machineSequence alignmentMethodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transformTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMORIGINAL710123.2014.pdfapplication/pdf6275474https://repositorio.unal.edu.co/bitstream/unal/75302/1/710123.2014.pdf07472bf0b414bae69086a6a415a08951MD51THUMBNAIL710123.2014.pdf.jpg710123.2014.pdf.jpgGenerated Thumbnailimage/jpeg4980https://repositorio.unal.edu.co/bitstream/unal/75302/2/710123.2014.pdf.jpg025ce54cb86e5332b38767bb9179d851MD52unal/75302oai:repositorio.unal.edu.co:unal/753022024-07-04 23:41:27.535Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co