Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform
En esta tesis se propone un método para la predicción de anotaciones de proteínas a partir de la estimación de características en secuencias biológicas. Dicha estimación emplea información sobre la estructura de las proteínas a partir de las estadísticas de contactos potenciales entre pares de amino...
- Autores:
-
Arango Argoty, Gustavo Alonso
- Tipo de recurso:
- Fecha de publicación:
- 2014
- Institución:
- Universidad Nacional de Colombia
- Repositorio:
- Universidad Nacional de Colombia
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unal.edu.co:unal/75302
- Acceso en línea:
- https://repositorio.unal.edu.co/handle/unal/75302
http://bdigital.unal.edu.co/39867/
- Palabra clave:
- 51 Matemáticas / Mathematics
54 Química y ciencias afines / Chemistry
62 Ingeniería y operaciones afines / Engineering
Transformada wavelet continua
Potenciales de contacto estadísticos
Prediccion de proteínas
Máquinas de vectores de soporte
Alineamiento de secuencias
Continuous wavelet transform
Statistical contact potentials
Protein prediction
Support vector machine
Sequence alignment
- Rights
- openAccess
- License
- Atribución-NoComercial 4.0 Internacional
id |
UNACIONAL2_453f9f67b839a3c611d6ba3b0a1bfea7 |
---|---|
oai_identifier_str |
oai:repositorio.unal.edu.co:unal/75302 |
network_acronym_str |
UNACIONAL2 |
network_name_str |
Universidad Nacional de Colombia |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform |
title |
Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform |
spellingShingle |
Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform 51 Matemáticas / Mathematics 54 Química y ciencias afines / Chemistry 62 Ingeniería y operaciones afines / Engineering Transformada wavelet continua Potenciales de contacto estadísticos Prediccion de proteínas Máquinas de vectores de soporte Alineamiento de secuencias Continuous wavelet transform Statistical contact potentials Protein prediction Support vector machine Sequence alignment |
title_short |
Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform |
title_full |
Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform |
title_fullStr |
Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform |
title_full_unstemmed |
Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform |
title_sort |
Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform |
dc.creator.fl_str_mv |
Arango Argoty, Gustavo Alonso |
dc.contributor.advisor.spa.fl_str_mv |
Castellanos Domínguez, César Germán (Thesis advisor) |
dc.contributor.author.spa.fl_str_mv |
Arango Argoty, Gustavo Alonso |
dc.subject.ddc.spa.fl_str_mv |
51 Matemáticas / Mathematics 54 Química y ciencias afines / Chemistry 62 Ingeniería y operaciones afines / Engineering |
topic |
51 Matemáticas / Mathematics 54 Química y ciencias afines / Chemistry 62 Ingeniería y operaciones afines / Engineering Transformada wavelet continua Potenciales de contacto estadísticos Prediccion de proteínas Máquinas de vectores de soporte Alineamiento de secuencias Continuous wavelet transform Statistical contact potentials Protein prediction Support vector machine Sequence alignment |
dc.subject.proposal.spa.fl_str_mv |
Transformada wavelet continua Potenciales de contacto estadísticos Prediccion de proteínas Máquinas de vectores de soporte Alineamiento de secuencias Continuous wavelet transform Statistical contact potentials Protein prediction Support vector machine Sequence alignment |
description |
En esta tesis se propone un método para la predicción de anotaciones de proteínas a partir de la estimación de características en secuencias biológicas. Dicha estimación emplea información sobre la estructura de las proteínas a partir de las estadísticas de contactos potenciales entre pares de aminoácidos. Inicialmente, una proteína es transformada a una serie numérica por medio de estos contactos potenciales. Debido a las interacciones entre aminoácidos cercanos, la transformada wavelet puede fácilmente detectar las subsecuencias pertenecientes a posiciones específicas a lo largo de la proteína. Así, todas las subsecuencias son agrupadas de acuerdo a su distribución y estos grupos son modelados empleando perfiles de Modelos Ocultos de Markov. Finalmente, los perfiles son usados como características donde proteínas de análisis son mapeadas generando así un espacio de representación que es usado para entrenar un clasificador basado en vectores de soporte. La metodología ha sido rigurosamente evaluada y comparada con tres diferentes criterios de caracterización: 1) características globales comúnmente usadas para representar proteínas, 2) características específicas como motivos y dominios, y por último 3) evaluación de el rendimiento de varios programas construidos para la predicción de anotación de proteínas. Como resultado el método propuesto ha logrado los mas altos puntajes de predicción en la mayoría de los casos de estudio. De manera que estas predicciones sugieren a nuestro método como una alternativa a los comúnmente usados algoritmos de caracterización. Por otra parte, a pesar de que el enfoque de la metodología esta diseñada para resolver problemas de clasificación, la comunidad científica puede hacer uso de ella en dos diferentes enfoques: 1) como un predictor de anotaciones en proteínas y 2) como una herramienta para encontrar motivos. Por último, el código fuente del método se encuentra para libre descarga en: http://sourceforge.net/projects/wamofi/?source=navbar |
publishDate |
2014 |
dc.date.issued.spa.fl_str_mv |
2014 |
dc.date.accessioned.spa.fl_str_mv |
2019-07-03T19:31:02Z |
dc.date.available.spa.fl_str_mv |
2019-07-03T19:31:02Z |
dc.type.spa.fl_str_mv |
Trabajo de grado - Maestría |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/masterThesis |
dc.type.version.spa.fl_str_mv |
info:eu-repo/semantics/acceptedVersion |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/TM |
status_str |
acceptedVersion |
dc.identifier.uri.none.fl_str_mv |
https://repositorio.unal.edu.co/handle/unal/75302 |
dc.identifier.eprints.spa.fl_str_mv |
http://bdigital.unal.edu.co/39867/ |
url |
https://repositorio.unal.edu.co/handle/unal/75302 http://bdigital.unal.edu.co/39867/ |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.spa.fl_str_mv |
Universidad Nacional de Colombia Sede Manizales Facultad de Ingeniería y Arquitectura Departamento de Ingeniería Eléctrica, Electrónica y Computación Ingeniería Electrónica Ingeniería Electrónica |
dc.relation.references.spa.fl_str_mv |
Arango Argoty, Gustavo Alonso (2014) Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform. Maestría thesis, Universidad Nacional de Colombia - Sede Manizales. |
dc.rights.spa.fl_str_mv |
Derechos reservados - Universidad Nacional de Colombia |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.license.spa.fl_str_mv |
Atribución-NoComercial 4.0 Internacional |
dc.rights.uri.spa.fl_str_mv |
http://creativecommons.org/licenses/by-nc/4.0/ |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Atribución-NoComercial 4.0 Internacional Derechos reservados - Universidad Nacional de Colombia http://creativecommons.org/licenses/by-nc/4.0/ http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
institution |
Universidad Nacional de Colombia |
bitstream.url.fl_str_mv |
https://repositorio.unal.edu.co/bitstream/unal/75302/1/710123.2014.pdf https://repositorio.unal.edu.co/bitstream/unal/75302/2/710123.2014.pdf.jpg |
bitstream.checksum.fl_str_mv |
07472bf0b414bae69086a6a415a08951 025ce54cb86e5332b38767bb9179d851 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional Universidad Nacional de Colombia |
repository.mail.fl_str_mv |
repositorio_nal@unal.edu.co |
_version_ |
1814090178319351808 |
spelling |
Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Castellanos Domínguez, César Germán (Thesis advisor)c792a029-43aa-4eb1-ac01-0b8ac24a537e-1Arango Argoty, Gustavo Alonso72694f18-6225-4243-8a17-02094bf8ee133002019-07-03T19:31:02Z2019-07-03T19:31:02Z2014https://repositorio.unal.edu.co/handle/unal/75302http://bdigital.unal.edu.co/39867/En esta tesis se propone un método para la predicción de anotaciones de proteínas a partir de la estimación de características en secuencias biológicas. Dicha estimación emplea información sobre la estructura de las proteínas a partir de las estadísticas de contactos potenciales entre pares de aminoácidos. Inicialmente, una proteína es transformada a una serie numérica por medio de estos contactos potenciales. Debido a las interacciones entre aminoácidos cercanos, la transformada wavelet puede fácilmente detectar las subsecuencias pertenecientes a posiciones específicas a lo largo de la proteína. Así, todas las subsecuencias son agrupadas de acuerdo a su distribución y estos grupos son modelados empleando perfiles de Modelos Ocultos de Markov. Finalmente, los perfiles son usados como características donde proteínas de análisis son mapeadas generando así un espacio de representación que es usado para entrenar un clasificador basado en vectores de soporte. La metodología ha sido rigurosamente evaluada y comparada con tres diferentes criterios de caracterización: 1) características globales comúnmente usadas para representar proteínas, 2) características específicas como motivos y dominios, y por último 3) evaluación de el rendimiento de varios programas construidos para la predicción de anotación de proteínas. Como resultado el método propuesto ha logrado los mas altos puntajes de predicción en la mayoría de los casos de estudio. De manera que estas predicciones sugieren a nuestro método como una alternativa a los comúnmente usados algoritmos de caracterización. Por otra parte, a pesar de que el enfoque de la metodología esta diseñada para resolver problemas de clasificación, la comunidad científica puede hacer uso de ella en dos diferentes enfoques: 1) como un predictor de anotaciones en proteínas y 2) como una herramienta para encontrar motivos. Por último, el código fuente del método se encuentra para libre descarga en: http://sourceforge.net/projects/wamofi/?source=navbarAbstract : In this thesis, a method to predict semantic annotations of the proteins from its primary structure is proposed. The main contribution of this thesis lies in the implementation of a novel protein feature representation, which makes use of the pairwise statistical contact potentials describing the protein interactions and geometry at the atomic level. Initially, a protein sequence is decomposed into a numerical series by a contact potential. From the interactions between adjacent amino acids, the wavelet transform can easily detect and characterize subsequences at specific position along the protein sequence. Then, all subsequences are grouped into clusters and a Hidden Markov Model (HMM) profile is built for each one of the groups. Finally, the modeled profiles HMM are used as features in order to build a feature space with the aim to train and evaluate a support vector machine classifier. Evaluations of the proposed methodology are driven against three different views 1) known protein features 2) motif-domain based features (PFam terms) and 3) performance evaluation over several methods for protein annotation prediction. As result, The method have acquired the highest performance prediction in most of the study cases. Thus, this efficiency suggest our approach as an alternative method for the characterization of protein sequences. Although, the research in this thesis focuses on the classification problem, the scientific community can make use of the methodology in two different ways: 1) as a protein predictor and 2) as a motif finding tool. Finally, the source code of the method is free available for download at SourceForge http://sourceforge.net/projects/wamofi/?source=navbarMaestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Manizales Facultad de Ingeniería y Arquitectura Departamento de Ingeniería Eléctrica, Electrónica y Computación Ingeniería ElectrónicaIngeniería ElectrónicaArango Argoty, Gustavo Alonso (2014) Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform. Maestría thesis, Universidad Nacional de Colombia - Sede Manizales.51 Matemáticas / Mathematics54 Química y ciencias afines / Chemistry62 Ingeniería y operaciones afines / EngineeringTransformada wavelet continuaPotenciales de contacto estadísticosPrediccion de proteínasMáquinas de vectores de soporteAlineamiento de secuenciasContinuous wavelet transformStatistical contact potentialsProtein predictionSupport vector machineSequence alignmentMethodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transformTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMORIGINAL710123.2014.pdfapplication/pdf6275474https://repositorio.unal.edu.co/bitstream/unal/75302/1/710123.2014.pdf07472bf0b414bae69086a6a415a08951MD51THUMBNAIL710123.2014.pdf.jpg710123.2014.pdf.jpgGenerated Thumbnailimage/jpeg4980https://repositorio.unal.edu.co/bitstream/unal/75302/2/710123.2014.pdf.jpg025ce54cb86e5332b38767bb9179d851MD52unal/75302oai:repositorio.unal.edu.co:unal/753022024-07-04 23:41:27.535Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co |