Métodos de Kernels en secuencias para la clasificación de residuos catalíticos en sitios activos de enzimas
Este trabajo presenta una metodología de solución al problema de clasificación de residuos catalíticos en sitios activos de enzimas. Esta metodología está basada en el aprendizaje de máquina específicamente en las máquinas de soporte vectorial (MSV); que junto a las funciones kernel permite clasific...
- Autores:
-
Hernández González, Nelson
- Tipo de recurso:
- Fecha de publicación:
- 2013
- Institución:
- Universidad Nacional de Colombia
- Repositorio:
- Universidad Nacional de Colombia
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unal.edu.co:unal/20209
- Acceso en línea:
- https://repositorio.unal.edu.co/handle/unal/20209
http://bdigital.unal.edu.co/10683/
- Palabra clave:
- 0 Generalidades / Computer science, information and general works
57 Ciencias de la vida; Biología / Life sciences; biology
66 Ingeniería química y Tecnologías relacionadas/ Chemical engineering
Máquinas de soporte vectorial
Funciones kernel
Sitios catalíticos
Support Vector Machine
Kernel functions
Catalytic sites
- Rights
- openAccess
- License
- Atribución-NoComercial 4.0 Internacional
Summary: | Este trabajo presenta una metodología de solución al problema de clasificación de residuos catalíticos en sitios activos de enzimas. Esta metodología está basada en el aprendizaje de máquina específicamente en las máquinas de soporte vectorial (MSV); que junto a las funciones kernel permite clasificar residuos en enzimas a partir de su secuencia. El conjunto de datos utilizados fue Catalytic Site Atlas (CSA). En la metodología planteada, en primer lugar encontramos la información biológica de los residuos integrada con la representación en secuencia de la enzima que lo contiene; esto por medio de las funciones kernel gaussiano y string, respectivamente. Posteriormente; el algoritmo jerárquico AGNES (Agglomerative Nesting) es aplicado para obtener un número de grupos inicial para el algoritmo de agrupación k-medias; obteniendo como resultado cinco grupos de enzimas. Por último, para cada grupo se desarrolló un sistema basado en MSV. La estimación del error de generalización después de validación cruzada es usada como criterio de desempeño del modelo. |
---|