Protein function prediction with semi-supervised classification based on evolutionary multi-objective optimization

Las proteínas son los elementos clave en el camino desde la información genética hasta el desarrollo de la vida. Las funciones desempeñadas por las diferentes proteínas son difíciles de detectar experimentalmente ya que este proceso implica procedimientos complejos, como las modificaciones genéticas...

Full description

Autores:
Jaramillo Garzón, Jorge Alberto
Tipo de recurso:
Doctoral thesis
Fecha de publicación:
2013
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/21135
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/21135
http://bdigital.unal.edu.co/11879/
Palabra clave:
0 Generalidades / Computer science, information and general works
51 Matemáticas / Mathematics
57 Ciencias de la vida; Biología / Life sciences; biology
Bioinformática
Ontología Genética
Aprendizaje Semi-supervisado
Optimización multi-objetivo
Búsqueda Cucú
Bioinformatics
Gene Ontology
Semi-supervised Learning
Multiobjective optimization
Cuckoo search
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
Description
Summary:Las proteínas son los elementos clave en el camino desde la información genética hasta el desarrollo de la vida. Las funciones desempeñadas por las diferentes proteínas son difíciles de detectar experimentalmente ya que este proceso implica procedimientos complejos, como las modificaciones genéticas, la inyección de proteínas fluorescentes, métodos de knock-out de genes y otros. El conocimiento aprendido de cada proteína es generalmente anotado en bases de datos a través de diferentes métodos como el propuesto por la Ontología Genética (GO). Se han propuesto diferentes métodos para predecir términos GO a partir de la información contenida en la estructura primaria, pero muy pocos están disponibles para la anotación funcional a gran escala de plantas, y las tasas de acierto reportadas son mucho menores que los reportados por otros predictores sobre especies no vegetales. El enfoque más común para llevar a cabo esta tarea es mediante el uso de estrategias basadas en la anotación basada en transferencia de homólogos . El proceso de anotación se centra en la búsqueda de secuencias similares en bases de datos de proteínas anotadas anteriormente, mediante el uso de herramientas de alineación de secuencias como BLASTp. Sin embargo, una alta similitud no implica necesariamente una homología, y podría haber homólogos con una escasa similitud. Como alternativa a las herramientas de anotación basadas en alineamientos, los métodos más recientes han utilizado técnicas de aprendizaje de máquina entrenados sobre espacios de características físico-químicas o estadísticas, a fin de diseñar herramientas que pueden ser capaces de lograr un alto rendimiento de predicción cuando las herramientas clásicas sin duda fracasarían. El presente trabajo se encuentra en el marco del aprendizaje de máquina aplicado a la predicción de funciones de proteínas, a través del uso de un paradigma moderno llamado aprendizaje sem-supervisado. Este paradigma está motivado en el hecho de que en muchos problemas del mundo real, la adquisición de una gran cantidad de muestras de entrenamiento etiquetadas es cara y consume mucho tiempo. Debido a que la obtención de datos sin etiqueta requiere menos esfuerzo humano, es de gran interés para incluirlo en el proceso de aprendizaje, tanto en la teoría como en la práctica. Un gran número de métodos semi-supervisados se han propuesto recientemente y han demostrado mejorar la precisión de los enfoques clásicos supervisadas en un gran número de aplicaciones del mundo real. Sin embargo, el éxito de los enfoques semi-supervisados depende en gran medida de las suposiciones previas que se tienen que hacer sobre los datos. Cuando estas suposiciones no se cumplen, la inclusión de datos sin etiqueta puede ser perjudicial para el predictor. En este trabajo, se analizan los principales enfoques para llevar a cabo el aprendizaje semi-supervisado sobre el problema de la predicción de funcionesde proteínas, y sus suposiciones subyacentes se identifican y se combinan en un marco de optimización multi-objetivo, con el fin de obtener un nuevo modelo de aprendizaje que sea menos dependiente de las la naturaleza de los datos. Todos los experimentos y los análisis se centran en las plantas terrestres (Embryophyta), que constituyen una parte importante de la biodiversidad nacional de Colombia, incluyendo la mayoría de los productos agrícolas.