Detección de homólogos remotos usando propiedades fisicoquímicas

En este artículo se presenta un nuevo método para la detección de homólogos remotos en proteínas llamado CDA (Análisis de Distribución de Característica). El método CDA utiliza distribuciones de las propiedades fisicoquímicas de los aminoácidos para cada proteína. Dadas las secuencias de entrenamien...

Full description

Autores:
Bedoya, Óscar
Tipo de recurso:
Article of journal
Fecha de publicación:
2017
Institución:
Universidad EIA .
Repositorio:
Repositorio EIA .
Idioma:
spa
OAI Identifier:
oai:repository.eia.edu.co:11190/5025
Acceso en línea:
https://repository.eia.edu.co/handle/11190/5025
https://doi.org/10.24050/reia.v14i27.1161
Palabra clave:
Detección de homólogos remotos
familia SCOP
propiedades fisicoquímicas.
Rights
openAccess
License
Revista EIA - 2017
Description
Summary:En este artículo se presenta un nuevo método para la detección de homólogos remotos en proteínas llamado CDA (Análisis de Distribución de Característica). El método CDA utiliza distribuciones de las propiedades fisicoquímicas de los aminoácidos para cada proteína. Dadas las secuencias de entrenamiento de una familia SCOP (Clasificación Estructural de Proteínas), se calcula su correspondiente distribución característica promediando los valores de las distribuciones para las proteínas que la componen. La hipótesis en esta investigación es que cada familia de proteínas F tiene una distribución característica que separa sus secuencias del resto de las proteínas en un conjunto de datos. Se seleccionó un conjunto de 72 propiedades fisicoquímicas para crear diferentes distribuciones características de la misma familia. Cada distribución característica se usa como un clasificador de familias SCOP. Por último, se utiliza una clasificador Bayesiano para combinar la información de los clasificadores individuales y obtener una mejor decisión. Encontramos que cada familia tiene un conjunto de propiedades fisicoquímicas que permiten una mejor discriminación de sus secuencias. El método CDA alcanza una tasa de aciertos positivos de 0,793, una tasa de falsos positivos de 0,005 y un puntaje ROC de 0,918. El método propuesto mejora la precisión de algunas de las estrategias existentes tales como SVM-PCD y SVM-RQA.