Estrategias multi-etiqueta orientadas a la predicción funcional de proteínas en organismos embryophyta

Tradicionalmente, la identificación de funciones en proteínas se ha venido desarrollando por complejos y costosos procedimientos experimentales junto con mecanismos computacionales que buscan similitudes a través de alineamientos secuencia-secuencia, secuencia-perfiles, entre otros. Sin embargo, est...

Full description

Autores:
Giraldo Forero, Andrés Felipe
Tipo de recurso:
Fecha de publicación:
2015
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/55633
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/55633
http://bdigital.unal.edu.co/51063/
Palabra clave:
0 Generalidades / Computer science, information and general works
57 Ciencias de la vida; Biología / Life sciences; biology
6 Tecnología (ciencias aplicadas) / Technology
Adaptación del algoritmo
Bioinformática
Ontología del gen
Clasificación multi-etiqueta
Transformación del problema
Proteínas
Algorithm adaptation
Bioinformatics
Gene ontology
Multi-label clasification
Problem transformation
Proteins
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
Description
Summary:Tradicionalmente, la identificación de funciones en proteínas se ha venido desarrollando por complejos y costosos procedimientos experimentales junto con mecanismos computacionales que buscan similitudes a través de alineamientos secuencia-secuencia, secuencia-perfiles, entre otros. Sin embargo, estos métodos pierden efectividad cuando proteínas con igual función presentan bajas similitudes, los sistemas más recientes emplean métodos de aprendizaje de maquina en espacios que son representados por características evolutivas, químicas, físicas, estadísticas, entre otras. Pero, ´estos se han restringido a problemas donde las clases son mutuamente excluyentes, buscando suplir debilidades de los sistemas tradicionales como: velocidad de inferencia y grado de acierto, este trabajo se ha centrado en el estudio de métodos que manejen simultáneamente múltiples etiquetas. En esta tesis se desarrolla un estudio sobre problemas de clasificación que involucran simultáneamente múltiples etiquetas, para este fin son ajustados una variedad de modelos que capturan la correlación entre las clases, igualmente se proponen un conjunto de alternativas para tratar el desbalance de clases sobre estos problemas. También se analizan y discuten las medidas usadas para calcular los rendimientos de clasificación. Las estrategias analizadas se probaron experimentalmente sobre diferentes conjuntos de datos, pertenecientes a diversas labores tales como: predicción de funciones de proteínas, clasificación de imágenes, análisis de textos y detección de emociones. Los resultados mostraron que la relevancia binaria es la opción más adecuada cuando no existen altos grados de dependencia entre las clases, y que las medidas utilizadas actualmente no son adecuadas para identificar sensibilidades en los algoritmos y que el balance de clases por sobremuestreo en problemas multi-etiqueta afecta de manera negativa el rendimiento de clasificación