Aplicación del análisis de rango reescalado r/s para la predicción de genes en el genoma vegetal

La predicción de genes es en la actualidad uno de los principales desafíos de la genómica. La predicción permite realizar experimentos con alta probabilidad de encontrar genes de interés y comparar regiones de ADN de importancia agronómica entre genomas; además, ayuda a restringir los espacios de bú...

Full description

Autores:
Almanza Pinzón, Martha Isabel
López López, Karina
Téllez Villa, Carlos Eduardo
Tipo de recurso:
Article of journal
Fecha de publicación:
2010
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/33233
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/33233
http://bdigital.unal.edu.co/23313/
Palabra clave:
6 Tecnología (ciencias aplicadas) / Technology
63 Agricultura y tecnologías relacionadas / Agriculture
Genómica comparativa
predicción de genes
análisis R/S
coeficiente de Hurst
Arabidopsis thaliana
Oryza sativa
Mus musculus.
Comparative genomics
gene’s prediction
R/S analysis
Hurst coefficient
Arabidopsis thaliana
Oryza sativa
Mus musculus.
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
Description
Summary:La predicción de genes es en la actualidad uno de los principales desafíos de la genómica. La predicción permite realizar experimentos con alta probabilidad de encontrar genes de interés y comparar regiones de ADN de importancia agronómica entre genomas; además, ayuda a restringir los espacios de búsqueda en las bases de datos. Un procedimiento estadístico con base en el análisis R/S y el coeficiente de Hurst fue desarrollado para caracterizar y predecir genes y los componentes estructurales de estos (exones e intrones) en los genomas eucariotas completos de Arabidopsis thaliana, Oriza sativa y Mus musculus. Algoritmos en lenguaje de programación Python fueron desarrollados para extraer, filtrar y modelar más del 80% de las secuencias de genes registradas para estos genomas en la base de datos del GeneBank del NCBI.  El análisis R/S permitió demostrar que existe un orden estructural en la distribución de los nucleótidos que constituyen las secuencias en las que predominan los fenómenos de memoria o dependencia de largo alcance. La estructura de memoria varía según el tipo de secuencias y el genoma de la especie. Las secuencias de los genes y exones de los genomas vegetales analizados presentaron comportamiento persistente mientras que las de los intrones tuvieron un comportamiento antipersistente, en comparación, al genoma animal en el cual los tres tipos de secuencias presentaron comportamiento persistente. De acuerdo con los parámetros provenientes del análisis R/S, el patrón de distribución de las secuencias del genoma se repitió de manera estadísticamente similar en cada uno de los cromosomas que pertenecen a una especie, constituyéndose en evidencias fundamentales de invarianza por cambio de escala; es decir, cada cromosoma por sí solo es una réplica estadística a menor escala del genoma completo. Los parámetros constituyeron criterios compactos para derivar predictores (clasificadores) de secuencias que alcanzaron promedios de sensibilidad y especificidad mayor del 81% y 70%, respectivamente. Este procedimiento podría ser probado en otros genomas y utilizado como criterio para incrementar la eficiencia de la selección en los programas de mejoramiento genético vegetal.