Metodología para la predicción de funciones en proteínas Embryophyta usando kernels de secuencias.

Mediante este trabajo se automatizó el proceso de anotación de secuencias proteicas, a través del uso de técnicas de aprendizaje de máquina supervisado y kernels de secuencias conocidos también como string kernels, para ello se implementan tres tipos de kernel, en conjunto con una metodología para l...

Full description

Autores:
Cardona Escobar, Andrés Felipe
Pineda Iral, Juan Camilo
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2015
Institución:
Instituto Tecnológico Metropolitano
Repositorio:
Repositorio ITM
Idioma:
spa
OAI Identifier:
oai:repositorio.itm.edu.co:20.500.12622/110
Acceso en línea:
http://hdl.handle.net/20.500.12622/110
Palabra clave:
Máquinas de soporte vectorial
Aprendizaje automático
kernel (Informática)
Reconocimiento de patrones
Algoritmos heurísticos
Métodos heurísticos
Genetic algorithms
Mathematical models
Simulation methods
Digital control systems
ALGORITMOS GENÉTICOS
MODELOS MATEMÁTICOS
MÉTODOS DE SIMULACIÓN
SISTEMAS DE CONTROL DIGITAL
Rights
License
http://creativecommons.org/licenses/by-nc-nd/4.0/
Description
Summary:Mediante este trabajo se automatizó el proceso de anotación de secuencias proteicas, a través del uso de técnicas de aprendizaje de máquina supervisado y kernels de secuencias conocidos también como string kernels, para ello se implementan tres tipos de kernel, en conjunto con una metodología para la clasificación supervisada de secuencias proteicas, que incluye máquinas de vectores de soporte (SVM) para resolver 14 problemas de clasificación que hacen referencia a funciones moleculares de plantas terrestres (Embryophyta). La metodología implementada utiliza algoritmos meta-heurísticos bio-inspirados para encontrar los parámetros óptimos de la SVM, a través de una validación cruzada de 10 particiones. Con el propósito de resolver el problema del desbalance de clases, se asignan pesos a las mismas y luego se introducen como hiperparámetros al clasificador, esto con el fin de evitar métodos de muestreo usados para adicionar o quitar muestras. Los resultados obtenidos fueron comparados con el kernel de base radial (RBF) bajo la misma metodología. La media geométrica entre la sensibilidad y la especificidad fue utilizada como medida de desempeño global, los resultados obtenidos muestran que el desempeño de los kernels de secuencias fue mejor en la mayoría de los problemas, mostrando que este tipo de kernels, son una herramienta adecuada para el problema tratado.