Protein function prediction with semi-supervised classification based on evolutionary multi-objective optimization

Las proteínas son los elementos clave en el camino desde la información genética hasta el desarrollo de la vida. Las funciones desempeñadas por las diferentes proteínas son difíciles de detectar experimentalmente ya que este proceso implica procedimientos complejos, como las modificaciones genéticas...

Full description

Autores:
Jaramillo Garzón, Jorge Alberto
Tipo de recurso:
Doctoral thesis
Fecha de publicación:
2013
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/21135
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/21135
http://bdigital.unal.edu.co/11879/
Palabra clave:
0 Generalidades / Computer science, information and general works
51 Matemáticas / Mathematics
57 Ciencias de la vida; Biología / Life sciences; biology
Bioinformática
Ontología Genética
Aprendizaje Semi-supervisado
Optimización multi-objetivo
Búsqueda Cucú
Bioinformatics
Gene Ontology
Semi-supervised Learning
Multiobjective optimization
Cuckoo search
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
id UNACIONAL2_7ed6e1d3b589b4466b3bd06b9f9c8bbb
oai_identifier_str oai:repositorio.unal.edu.co:unal/21135
network_acronym_str UNACIONAL2
network_name_str Universidad Nacional de Colombia
repository_id_str
dc.title.spa.fl_str_mv Protein function prediction with semi-supervised classification based on evolutionary multi-objective optimization
title Protein function prediction with semi-supervised classification based on evolutionary multi-objective optimization
spellingShingle Protein function prediction with semi-supervised classification based on evolutionary multi-objective optimization
0 Generalidades / Computer science, information and general works
51 Matemáticas / Mathematics
57 Ciencias de la vida; Biología / Life sciences; biology
Bioinformática
Ontología Genética
Aprendizaje Semi-supervisado
Optimización multi-objetivo
Búsqueda Cucú
Bioinformatics
Gene Ontology
Semi-supervised Learning
Multiobjective optimization
Cuckoo search
title_short Protein function prediction with semi-supervised classification based on evolutionary multi-objective optimization
title_full Protein function prediction with semi-supervised classification based on evolutionary multi-objective optimization
title_fullStr Protein function prediction with semi-supervised classification based on evolutionary multi-objective optimization
title_full_unstemmed Protein function prediction with semi-supervised classification based on evolutionary multi-objective optimization
title_sort Protein function prediction with semi-supervised classification based on evolutionary multi-objective optimization
dc.creator.fl_str_mv Jaramillo Garzón, Jorge Alberto
dc.contributor.advisor.spa.fl_str_mv Castellanos Domínguez, César Germán (Thesis advisor)
Perera i Lluna, Alexandre (Thesis advisor)
dc.contributor.author.spa.fl_str_mv Jaramillo Garzón, Jorge Alberto
dc.subject.ddc.spa.fl_str_mv 0 Generalidades / Computer science, information and general works
51 Matemáticas / Mathematics
57 Ciencias de la vida; Biología / Life sciences; biology
topic 0 Generalidades / Computer science, information and general works
51 Matemáticas / Mathematics
57 Ciencias de la vida; Biología / Life sciences; biology
Bioinformática
Ontología Genética
Aprendizaje Semi-supervisado
Optimización multi-objetivo
Búsqueda Cucú
Bioinformatics
Gene Ontology
Semi-supervised Learning
Multiobjective optimization
Cuckoo search
dc.subject.proposal.spa.fl_str_mv Bioinformática
Ontología Genética
Aprendizaje Semi-supervisado
Optimización multi-objetivo
Búsqueda Cucú
Bioinformatics
Gene Ontology
Semi-supervised Learning
Multiobjective optimization
Cuckoo search
description Las proteínas son los elementos clave en el camino desde la información genética hasta el desarrollo de la vida. Las funciones desempeñadas por las diferentes proteínas son difíciles de detectar experimentalmente ya que este proceso implica procedimientos complejos, como las modificaciones genéticas, la inyección de proteínas fluorescentes, métodos de knock-out de genes y otros. El conocimiento aprendido de cada proteína es generalmente anotado en bases de datos a través de diferentes métodos como el propuesto por la Ontología Genética (GO). Se han propuesto diferentes métodos para predecir términos GO a partir de la información contenida en la estructura primaria, pero muy pocos están disponibles para la anotación funcional a gran escala de plantas, y las tasas de acierto reportadas son mucho menores que los reportados por otros predictores sobre especies no vegetales. El enfoque más común para llevar a cabo esta tarea es mediante el uso de estrategias basadas en la anotación basada en transferencia de homólogos . El proceso de anotación se centra en la búsqueda de secuencias similares en bases de datos de proteínas anotadas anteriormente, mediante el uso de herramientas de alineación de secuencias como BLASTp. Sin embargo, una alta similitud no implica necesariamente una homología, y podría haber homólogos con una escasa similitud. Como alternativa a las herramientas de anotación basadas en alineamientos, los métodos más recientes han utilizado técnicas de aprendizaje de máquina entrenados sobre espacios de características físico-químicas o estadísticas, a fin de diseñar herramientas que pueden ser capaces de lograr un alto rendimiento de predicción cuando las herramientas clásicas sin duda fracasarían. El presente trabajo se encuentra en el marco del aprendizaje de máquina aplicado a la predicción de funciones de proteínas, a través del uso de un paradigma moderno llamado aprendizaje sem-supervisado. Este paradigma está motivado en el hecho de que en muchos problemas del mundo real, la adquisición de una gran cantidad de muestras de entrenamiento etiquetadas es cara y consume mucho tiempo. Debido a que la obtención de datos sin etiqueta requiere menos esfuerzo humano, es de gran interés para incluirlo en el proceso de aprendizaje, tanto en la teoría como en la práctica. Un gran número de métodos semi-supervisados se han propuesto recientemente y han demostrado mejorar la precisión de los enfoques clásicos supervisadas en un gran número de aplicaciones del mundo real. Sin embargo, el éxito de los enfoques semi-supervisados depende en gran medida de las suposiciones previas que se tienen que hacer sobre los datos. Cuando estas suposiciones no se cumplen, la inclusión de datos sin etiqueta puede ser perjudicial para el predictor. En este trabajo, se analizan los principales enfoques para llevar a cabo el aprendizaje semi-supervisado sobre el problema de la predicción de funcionesde proteínas, y sus suposiciones subyacentes se identifican y se combinan en un marco de optimización multi-objetivo, con el fin de obtener un nuevo modelo de aprendizaje que sea menos dependiente de las la naturaleza de los datos. Todos los experimentos y los análisis se centran en las plantas terrestres (Embryophyta), que constituyen una parte importante de la biodiversidad nacional de Colombia, incluyendo la mayoría de los productos agrícolas.
publishDate 2013
dc.date.issued.spa.fl_str_mv 2013
dc.date.accessioned.spa.fl_str_mv 2019-06-25T18:57:28Z
dc.date.available.spa.fl_str_mv 2019-06-25T18:57:28Z
dc.type.spa.fl_str_mv Trabajo de grado - Doctorado
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/doctoralThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_db06
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TD
format http://purl.org/coar/resource_type/c_db06
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv https://repositorio.unal.edu.co/handle/unal/21135
dc.identifier.eprints.spa.fl_str_mv http://bdigital.unal.edu.co/11879/
url https://repositorio.unal.edu.co/handle/unal/21135
http://bdigital.unal.edu.co/11879/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.ispartof.spa.fl_str_mv Universidad Nacional de Colombia Sede Manizales Facultad de Ingeniería y Arquitectura Departamento de Ingeniería Eléctrica, Electrónica y Computación
Departamento de Ingeniería Eléctrica, Electrónica y Computación
dc.relation.references.spa.fl_str_mv Jaramillo Garzón, Jorge Alberto (2013) Protein function prediction with semi-supervised classification based on evolutionary multi-objective optimization. Doctorado thesis, Universidad Nacional de Colombia.
dc.rights.spa.fl_str_mv Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial 4.0 Internacional
Derechos reservados - Universidad Nacional de Colombia
http://creativecommons.org/licenses/by-nc/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
institution Universidad Nacional de Colombia
bitstream.url.fl_str_mv https://repositorio.unal.edu.co/bitstream/unal/21135/1/7907513.2013.pdf
https://repositorio.unal.edu.co/bitstream/unal/21135/2/7907513.2013.pdf.jpg
bitstream.checksum.fl_str_mv 63e890a792e9801c6af6846a7ba9fbc1
64da018d970cda33473aecce70852775
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv repositorio_nal@unal.edu.co
_version_ 1814090257971281920
spelling Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Castellanos Domínguez, César Germán (Thesis advisor)c792a029-43aa-4eb1-ac01-0b8ac24a537e-1Perera i Lluna, Alexandre (Thesis advisor)64a514db-05f4-4f71-8f0d-ac152fbd41c1-1Jaramillo Garzón, Jorge Albertob871013a-ea56-4f83-b788-cf570a9f64c33002019-06-25T18:57:28Z2019-06-25T18:57:28Z2013https://repositorio.unal.edu.co/handle/unal/21135http://bdigital.unal.edu.co/11879/Las proteínas son los elementos clave en el camino desde la información genética hasta el desarrollo de la vida. Las funciones desempeñadas por las diferentes proteínas son difíciles de detectar experimentalmente ya que este proceso implica procedimientos complejos, como las modificaciones genéticas, la inyección de proteínas fluorescentes, métodos de knock-out de genes y otros. El conocimiento aprendido de cada proteína es generalmente anotado en bases de datos a través de diferentes métodos como el propuesto por la Ontología Genética (GO). Se han propuesto diferentes métodos para predecir términos GO a partir de la información contenida en la estructura primaria, pero muy pocos están disponibles para la anotación funcional a gran escala de plantas, y las tasas de acierto reportadas son mucho menores que los reportados por otros predictores sobre especies no vegetales. El enfoque más común para llevar a cabo esta tarea es mediante el uso de estrategias basadas en la anotación basada en transferencia de homólogos . El proceso de anotación se centra en la búsqueda de secuencias similares en bases de datos de proteínas anotadas anteriormente, mediante el uso de herramientas de alineación de secuencias como BLASTp. Sin embargo, una alta similitud no implica necesariamente una homología, y podría haber homólogos con una escasa similitud. Como alternativa a las herramientas de anotación basadas en alineamientos, los métodos más recientes han utilizado técnicas de aprendizaje de máquina entrenados sobre espacios de características físico-químicas o estadísticas, a fin de diseñar herramientas que pueden ser capaces de lograr un alto rendimiento de predicción cuando las herramientas clásicas sin duda fracasarían. El presente trabajo se encuentra en el marco del aprendizaje de máquina aplicado a la predicción de funciones de proteínas, a través del uso de un paradigma moderno llamado aprendizaje sem-supervisado. Este paradigma está motivado en el hecho de que en muchos problemas del mundo real, la adquisición de una gran cantidad de muestras de entrenamiento etiquetadas es cara y consume mucho tiempo. Debido a que la obtención de datos sin etiqueta requiere menos esfuerzo humano, es de gran interés para incluirlo en el proceso de aprendizaje, tanto en la teoría como en la práctica. Un gran número de métodos semi-supervisados se han propuesto recientemente y han demostrado mejorar la precisión de los enfoques clásicos supervisadas en un gran número de aplicaciones del mundo real. Sin embargo, el éxito de los enfoques semi-supervisados depende en gran medida de las suposiciones previas que se tienen que hacer sobre los datos. Cuando estas suposiciones no se cumplen, la inclusión de datos sin etiqueta puede ser perjudicial para el predictor. En este trabajo, se analizan los principales enfoques para llevar a cabo el aprendizaje semi-supervisado sobre el problema de la predicción de funcionesde proteínas, y sus suposiciones subyacentes se identifican y se combinan en un marco de optimización multi-objetivo, con el fin de obtener un nuevo modelo de aprendizaje que sea menos dependiente de las la naturaleza de los datos. Todos los experimentos y los análisis se centran en las plantas terrestres (Embryophyta), que constituyen una parte importante de la biodiversidad nacional de Colombia, incluyendo la mayoría de los productos agrícolas.Abstract : Proteins are the key elements on the path from genetic information to the development of life. The roles played by the different proteins are difficult to uncover experimentally as this process involves complex procedures such as genetic modifications, injection of fluorescent proteins, gene knock-out methods and others. The knowledge learned from each protein is usually annotated in databases through different methods such as the proposed by The Gene Ontology (GO) consortium. Different methods have been proposed in order to predict GO terms from primary structure information, but very few are available for large-scale functional annotation of plants, and reported success rates are much less than the reported by other non-plant predictors. The most common approach to perform this task is by using strategies based on annotation transfer from homologues. The annotation process centers on the search for similar sequences in databases of previously annotated proteins, by using sequence alignment tools such as BLASTp. However, high similarity does not necessarily implies homology, and there could be homologues with very low similarity. As an alternative to alignment-based tools, more recent methods have used machine learning techniques trained over feature spaces of physical-chemical, statistical or locally-based attributes, in order to design tools that can be able of achieving high prediction performance when classical tools would certainly fail. The present work lies on the framework of machine learning applied to protein function prediction, through the use of a modern paradigm called semi-supervised learning. This paradigm is motivated on the fact that in many real-world problems, acquiring a large amount of labeled training data is expensive and time consuming. Because obtaining unlabeled data requires less human effort, it is of great interest to include it in the learning process both in theory and in practice. A high number of semi-supervised methods have been recently proposed and have demonstrated to improve the accuracy of classical supervised approaches in a vast number of real-world applications. Nevertheless, the successfulness of semi-supervised approaches greatly depends on prior assumptions they have to make about the data. When such assumptions does not hold, the inclusion of unlabeled data can be harmful to the predictor. Here, the main approaches to perform semi-supervised learning were analyzed on the problem of protein function prediction, and their underlying assumptions were identified and combined in a multi-objective optimization framework, in order to obtain a novel learning model that is less dependent on the nature of the data. All the experiments and analyses were focused on land plants (Embryophyta), which constitutes an important part of the national biodiversity of Colombia, including most agricultural products.Doctoradoapplication/pdfspaUniversidad Nacional de Colombia Sede Manizales Facultad de Ingeniería y Arquitectura Departamento de Ingeniería Eléctrica, Electrónica y ComputaciónDepartamento de Ingeniería Eléctrica, Electrónica y ComputaciónJaramillo Garzón, Jorge Alberto (2013) Protein function prediction with semi-supervised classification based on evolutionary multi-objective optimization. Doctorado thesis, Universidad Nacional de Colombia.0 Generalidades / Computer science, information and general works51 Matemáticas / Mathematics57 Ciencias de la vida; Biología / Life sciences; biologyBioinformáticaOntología GenéticaAprendizaje Semi-supervisadoOptimización multi-objetivoBúsqueda CucúBioinformaticsGene OntologySemi-supervised LearningMultiobjective optimizationCuckoo searchProtein function prediction with semi-supervised classification based on evolutionary multi-objective optimizationTrabajo de grado - Doctoradoinfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_db06Texthttp://purl.org/redcol/resource_type/TDORIGINAL7907513.2013.pdfapplication/pdf3357668https://repositorio.unal.edu.co/bitstream/unal/21135/1/7907513.2013.pdf63e890a792e9801c6af6846a7ba9fbc1MD51THUMBNAIL7907513.2013.pdf.jpg7907513.2013.pdf.jpgGenerated Thumbnailimage/jpeg4448https://repositorio.unal.edu.co/bitstream/unal/21135/2/7907513.2013.pdf.jpg64da018d970cda33473aecce70852775MD52unal/21135oai:repositorio.unal.edu.co:unal/211352022-10-08 23:06:16.364Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co