Estrategias multi-etiqueta orientadas a la predicción funcional de proteínas en organismos embryophyta

Tradicionalmente, la identificación de funciones en proteínas se ha venido desarrollando por complejos y costosos procedimientos experimentales junto con mecanismos computacionales que buscan similitudes a través de alineamientos secuencia-secuencia, secuencia-perfiles, entre otros. Sin embargo, est...

Full description

Autores:
Giraldo Forero, Andrés Felipe
Tipo de recurso:
Fecha de publicación:
2015
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/55633
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/55633
http://bdigital.unal.edu.co/51063/
Palabra clave:
0 Generalidades / Computer science, information and general works
57 Ciencias de la vida; Biología / Life sciences; biology
6 Tecnología (ciencias aplicadas) / Technology
Adaptación del algoritmo
Bioinformática
Ontología del gen
Clasificación multi-etiqueta
Transformación del problema
Proteínas
Algorithm adaptation
Bioinformatics
Gene ontology
Multi-label clasification
Problem transformation
Proteins
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
id UNACIONAL2_2ff3f5ff98d0f7ea0cd4e2cde1d1a7e2
oai_identifier_str oai:repositorio.unal.edu.co:unal/55633
network_acronym_str UNACIONAL2
network_name_str Universidad Nacional de Colombia
repository_id_str
dc.title.spa.fl_str_mv Estrategias multi-etiqueta orientadas a la predicción funcional de proteínas en organismos embryophyta
title Estrategias multi-etiqueta orientadas a la predicción funcional de proteínas en organismos embryophyta
spellingShingle Estrategias multi-etiqueta orientadas a la predicción funcional de proteínas en organismos embryophyta
0 Generalidades / Computer science, information and general works
57 Ciencias de la vida; Biología / Life sciences; biology
6 Tecnología (ciencias aplicadas) / Technology
Adaptación del algoritmo
Bioinformática
Ontología del gen
Clasificación multi-etiqueta
Transformación del problema
Proteínas
Algorithm adaptation
Bioinformatics
Gene ontology
Multi-label clasification
Problem transformation
Proteins
title_short Estrategias multi-etiqueta orientadas a la predicción funcional de proteínas en organismos embryophyta
title_full Estrategias multi-etiqueta orientadas a la predicción funcional de proteínas en organismos embryophyta
title_fullStr Estrategias multi-etiqueta orientadas a la predicción funcional de proteínas en organismos embryophyta
title_full_unstemmed Estrategias multi-etiqueta orientadas a la predicción funcional de proteínas en organismos embryophyta
title_sort Estrategias multi-etiqueta orientadas a la predicción funcional de proteínas en organismos embryophyta
dc.creator.fl_str_mv Giraldo Forero, Andrés Felipe
dc.contributor.advisor.spa.fl_str_mv Castellanos Dominguez, César Germán (Thesis advisor)
Jaramillo Garzón, Jorge Alberto (Thesis advisor)
dc.contributor.author.spa.fl_str_mv Giraldo Forero, Andrés Felipe
dc.subject.ddc.spa.fl_str_mv 0 Generalidades / Computer science, information and general works
57 Ciencias de la vida; Biología / Life sciences; biology
6 Tecnología (ciencias aplicadas) / Technology
topic 0 Generalidades / Computer science, information and general works
57 Ciencias de la vida; Biología / Life sciences; biology
6 Tecnología (ciencias aplicadas) / Technology
Adaptación del algoritmo
Bioinformática
Ontología del gen
Clasificación multi-etiqueta
Transformación del problema
Proteínas
Algorithm adaptation
Bioinformatics
Gene ontology
Multi-label clasification
Problem transformation
Proteins
dc.subject.proposal.spa.fl_str_mv Adaptación del algoritmo
Bioinformática
Ontología del gen
Clasificación multi-etiqueta
Transformación del problema
Proteínas
Algorithm adaptation
Bioinformatics
Gene ontology
Multi-label clasification
Problem transformation
Proteins
description Tradicionalmente, la identificación de funciones en proteínas se ha venido desarrollando por complejos y costosos procedimientos experimentales junto con mecanismos computacionales que buscan similitudes a través de alineamientos secuencia-secuencia, secuencia-perfiles, entre otros. Sin embargo, estos métodos pierden efectividad cuando proteínas con igual función presentan bajas similitudes, los sistemas más recientes emplean métodos de aprendizaje de maquina en espacios que son representados por características evolutivas, químicas, físicas, estadísticas, entre otras. Pero, ´estos se han restringido a problemas donde las clases son mutuamente excluyentes, buscando suplir debilidades de los sistemas tradicionales como: velocidad de inferencia y grado de acierto, este trabajo se ha centrado en el estudio de métodos que manejen simultáneamente múltiples etiquetas. En esta tesis se desarrolla un estudio sobre problemas de clasificación que involucran simultáneamente múltiples etiquetas, para este fin son ajustados una variedad de modelos que capturan la correlación entre las clases, igualmente se proponen un conjunto de alternativas para tratar el desbalance de clases sobre estos problemas. También se analizan y discuten las medidas usadas para calcular los rendimientos de clasificación. Las estrategias analizadas se probaron experimentalmente sobre diferentes conjuntos de datos, pertenecientes a diversas labores tales como: predicción de funciones de proteínas, clasificación de imágenes, análisis de textos y detección de emociones. Los resultados mostraron que la relevancia binaria es la opción más adecuada cuando no existen altos grados de dependencia entre las clases, y que las medidas utilizadas actualmente no son adecuadas para identificar sensibilidades en los algoritmos y que el balance de clases por sobremuestreo en problemas multi-etiqueta afecta de manera negativa el rendimiento de clasificación
publishDate 2015
dc.date.issued.spa.fl_str_mv 2015
dc.date.accessioned.spa.fl_str_mv 2019-07-02T11:23:44Z
dc.date.available.spa.fl_str_mv 2019-07-02T11:23:44Z
dc.type.spa.fl_str_mv Trabajo de grado - Maestría
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TM
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv https://repositorio.unal.edu.co/handle/unal/55633
dc.identifier.eprints.spa.fl_str_mv http://bdigital.unal.edu.co/51063/
url https://repositorio.unal.edu.co/handle/unal/55633
http://bdigital.unal.edu.co/51063/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.ispartof.spa.fl_str_mv Universidad Nacional de Colombia Sede Manizales Facultad de Ingeniería y Arquitectura Departamento de Ingeniería Eléctrica, Electrónica y Computación
Departamento de Ingeniería Eléctrica, Electrónica y Computación
dc.relation.references.spa.fl_str_mv Giraldo Forero, Andrés Felipe (2015) Estrategias multi-etiqueta orientadas a la predicción funcional de proteínas en organismos embryophyta. Maestría thesis, Universidad Nacional de Colombia - Sede Manizales.
dc.rights.spa.fl_str_mv Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial 4.0 Internacional
Derechos reservados - Universidad Nacional de Colombia
http://creativecommons.org/licenses/by-nc/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
institution Universidad Nacional de Colombia
bitstream.url.fl_str_mv https://repositorio.unal.edu.co/bitstream/unal/55633/1/7111510.2015.pdf
https://repositorio.unal.edu.co/bitstream/unal/55633/2/7111510.2015.pdf.jpg
bitstream.checksum.fl_str_mv 3970da991edc22abc1e301beab6feeb7
1c377635705bdffef9be097f4283634b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv repositorio_nal@unal.edu.co
_version_ 1814089993807724544
spelling Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Castellanos Dominguez, César Germán (Thesis advisor)bfb85a9d-d3cc-4d4b-9152-02054f6efb2f-1Jaramillo Garzón, Jorge Alberto (Thesis advisor)fbffb488-85ef-4152-a2bb-936536c9dcf4-1Giraldo Forero, Andrés Felipe058d447e-8578-4757-a0a9-486938b4ec113002019-07-02T11:23:44Z2019-07-02T11:23:44Z2015https://repositorio.unal.edu.co/handle/unal/55633http://bdigital.unal.edu.co/51063/Tradicionalmente, la identificación de funciones en proteínas se ha venido desarrollando por complejos y costosos procedimientos experimentales junto con mecanismos computacionales que buscan similitudes a través de alineamientos secuencia-secuencia, secuencia-perfiles, entre otros. Sin embargo, estos métodos pierden efectividad cuando proteínas con igual función presentan bajas similitudes, los sistemas más recientes emplean métodos de aprendizaje de maquina en espacios que son representados por características evolutivas, químicas, físicas, estadísticas, entre otras. Pero, ´estos se han restringido a problemas donde las clases son mutuamente excluyentes, buscando suplir debilidades de los sistemas tradicionales como: velocidad de inferencia y grado de acierto, este trabajo se ha centrado en el estudio de métodos que manejen simultáneamente múltiples etiquetas. En esta tesis se desarrolla un estudio sobre problemas de clasificación que involucran simultáneamente múltiples etiquetas, para este fin son ajustados una variedad de modelos que capturan la correlación entre las clases, igualmente se proponen un conjunto de alternativas para tratar el desbalance de clases sobre estos problemas. También se analizan y discuten las medidas usadas para calcular los rendimientos de clasificación. Las estrategias analizadas se probaron experimentalmente sobre diferentes conjuntos de datos, pertenecientes a diversas labores tales como: predicción de funciones de proteínas, clasificación de imágenes, análisis de textos y detección de emociones. Los resultados mostraron que la relevancia binaria es la opción más adecuada cuando no existen altos grados de dependencia entre las clases, y que las medidas utilizadas actualmente no son adecuadas para identificar sensibilidades en los algoritmos y que el balance de clases por sobremuestreo en problemas multi-etiqueta afecta de manera negativa el rendimiento de clasificaciónAbstract : Traditionally, function identification in proteins has been accomplished by complex and expensive experimental procedures, in conjunction with computacional mechanisms based on sequence-sequence alignments and sequence-profile alignments. Those methods are less effective when proteins present low structural similarity. Recent approaches use machine learning methods over representation spaces of evolutionary, chemical, physical and statistical features, among others. However, traditional machine learning is only intended to problems with mutually exclusive classes. In this thesis, a study on classification problems with multiple labels is developed. Several models are adjusted to capture the correlation among classes, and a set of alternatives to manage class imbalance is also provided. Besides, common performance measures for multilabel problems are analyzed and discussed. All the strategies are experimentally tested over several datasets, comprising different real-world applications such as protein function prediction, natural scene clasification, text analisys and detection of emotions. Results showed that the best strategy is binary relevance when there are not high dependencies among classes. Additionally, the measures currently used are inadequate to identify sensitivities of the algorithmsMaestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Manizales Facultad de Ingeniería y Arquitectura Departamento de Ingeniería Eléctrica, Electrónica y ComputaciónDepartamento de Ingeniería Eléctrica, Electrónica y ComputaciónGiraldo Forero, Andrés Felipe (2015) Estrategias multi-etiqueta orientadas a la predicción funcional de proteínas en organismos embryophyta. Maestría thesis, Universidad Nacional de Colombia - Sede Manizales.0 Generalidades / Computer science, information and general works57 Ciencias de la vida; Biología / Life sciences; biology6 Tecnología (ciencias aplicadas) / TechnologyAdaptación del algoritmoBioinformáticaOntología del genClasificación multi-etiquetaTransformación del problemaProteínasAlgorithm adaptationBioinformaticsGene ontologyMulti-label clasificationProblem transformationProteinsEstrategias multi-etiqueta orientadas a la predicción funcional de proteínas en organismos embryophytaTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMORIGINAL7111510.2015.pdfapplication/pdf3836299https://repositorio.unal.edu.co/bitstream/unal/55633/1/7111510.2015.pdf3970da991edc22abc1e301beab6feeb7MD51THUMBNAIL7111510.2015.pdf.jpg7111510.2015.pdf.jpgGenerated Thumbnailimage/jpeg4837https://repositorio.unal.edu.co/bitstream/unal/55633/2/7111510.2015.pdf.jpg1c377635705bdffef9be097f4283634bMD52unal/55633oai:repositorio.unal.edu.co:unal/556332024-03-19 23:08:32.22Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co