Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform
En esta tesis se propone un método para la predicción de anotaciones de proteínas a partir de la estimación de características en secuencias biológicas. Dicha estimación emplea información sobre la estructura de las proteínas a partir de las estadísticas de contactos potenciales entre pares de amino...
- Autores:
-
Arango Argoty, Gustavo Alonso
- Tipo de recurso:
- Fecha de publicación:
- 2014
- Institución:
- Universidad Nacional de Colombia
- Repositorio:
- Universidad Nacional de Colombia
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unal.edu.co:unal/75302
- Acceso en línea:
- https://repositorio.unal.edu.co/handle/unal/75302
http://bdigital.unal.edu.co/39867/
- Palabra clave:
- 51 Matemáticas / Mathematics
54 Química y ciencias afines / Chemistry
62 Ingeniería y operaciones afines / Engineering
Transformada wavelet continua
Potenciales de contacto estadísticos
Prediccion de proteínas
Máquinas de vectores de soporte
Alineamiento de secuencias
Continuous wavelet transform
Statistical contact potentials
Protein prediction
Support vector machine
Sequence alignment
- Rights
- openAccess
- License
- Atribución-NoComercial 4.0 Internacional
Summary: | En esta tesis se propone un método para la predicción de anotaciones de proteínas a partir de la estimación de características en secuencias biológicas. Dicha estimación emplea información sobre la estructura de las proteínas a partir de las estadísticas de contactos potenciales entre pares de aminoácidos. Inicialmente, una proteína es transformada a una serie numérica por medio de estos contactos potenciales. Debido a las interacciones entre aminoácidos cercanos, la transformada wavelet puede fácilmente detectar las subsecuencias pertenecientes a posiciones específicas a lo largo de la proteína. Así, todas las subsecuencias son agrupadas de acuerdo a su distribución y estos grupos son modelados empleando perfiles de Modelos Ocultos de Markov. Finalmente, los perfiles son usados como características donde proteínas de análisis son mapeadas generando así un espacio de representación que es usado para entrenar un clasificador basado en vectores de soporte. La metodología ha sido rigurosamente evaluada y comparada con tres diferentes criterios de caracterización: 1) características globales comúnmente usadas para representar proteínas, 2) características específicas como motivos y dominios, y por último 3) evaluación de el rendimiento de varios programas construidos para la predicción de anotación de proteínas. Como resultado el método propuesto ha logrado los mas altos puntajes de predicción en la mayoría de los casos de estudio. De manera que estas predicciones sugieren a nuestro método como una alternativa a los comúnmente usados algoritmos de caracterización. Por otra parte, a pesar de que el enfoque de la metodología esta diseñada para resolver problemas de clasificación, la comunidad científica puede hacer uso de ella en dos diferentes enfoques: 1) como un predictor de anotaciones en proteínas y 2) como una herramienta para encontrar motivos. Por último, el código fuente del método se encuentra para libre descarga en: http://sourceforge.net/projects/wamofi/?source=navbar |
---|