Detección automatizada de pequeños fragmentos derivados de RNAs no-codificantes expresados diferencialmente frente a la infección del virus Dengue
En los últimos años, el uso cada vez mayor de las tecnologías de secuenciación de nueva generación para el estudio del transcriptoma ha llevado al descubrimiento de un nuevo fenómeno biológico llamado fragmentación postranscripcional funcional de ncRNAs. Varios estudios han identificado un amplio nú...
- Autores:
-
Gutiérrez Díaz, Aimer Alonso
- Tipo de recurso:
- Fecha de publicación:
- 2017
- Institución:
- Universidad Nacional de Colombia
- Repositorio:
- Universidad Nacional de Colombia
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unal.edu.co:unal/63688
- Acceso en línea:
- https://repositorio.unal.edu.co/handle/unal/63688
http://bdigital.unal.edu.co/64153/
- Palabra clave:
- 51 Matemáticas / Mathematics
57 Ciencias de la vida; Biología / Life sciences; biology
61 Ciencias médicas; Medicina / Medicine and health
miRNAs
Virus del Dengue
Transcriptoma
Expresión diferencial
Pequeños ncRNAs
anotación de ncRNAs
Biomarcadores síndrome febril
Dengue
Fragmentación postranscripcional funciona
Differential expression
Dengue fever
Biomarkers
Small ncRNA
Annotation of ncRNAs
Multi-mapping reads placement problem
Post-transcriptional functional fragmentation
- Rights
- openAccess
- License
- Atribución-NoComercial 4.0 Internacional
Summary: | En los últimos años, el uso cada vez mayor de las tecnologías de secuenciación de nueva generación para el estudio del transcriptoma ha llevado al descubrimiento de un nuevo fenómeno biológico llamado fragmentación postranscripcional funcional de ncRNAs. Varios estudios han identificado un amplio número de pequeños fragmentos derivados del procesamiento alternativo de ncRNAs (sfd-RNA) que varían entre 16 y 40nt, cuyas fuentes son principalmente tRNAs y snoRNAs. El interés en los sfd-RNA se debe a su parecido estructural y funcional con los micro RNAs (miRNAs). Por ejemplo, ambos tipos de moléculas pueden cargarse en proteínas Argonauta, quienes han sido vinculadas al fenómeno de interferencia mediada por RNA. A la fecha existen diferentes pipelines y herramientas computacionales dirigidas a anotar y evaluar expresión diferencial (DE) de miRNAs; no obstante, su extensión para el estudio de sfd-RNAs no es del todo adecuada, debido a que la fuente de los sfd-RNAs es a su vez una secuencia de ncRNA con una función alternativa, lo que implica una biogénesis diferente y por ende requiere estrategias computacionales propias. En particular, para el análisis de expresión diferencial de sfd-RNAs, a diferencia de los miRNAs, existen problemas asociados a la detección, anotación y cuantificación de las lecturas asociadas al ncRNA, que en términos estadísticos, impactan el número de variables y el tamaño de muestra; por ende, se requiere una estrategia de anotación propia para sfd-RNA capaz de afrontar dos complicaciones de orden bioinformático. La primera de ellas reside en que las moléculas fuente de sfd-RNAs presentan un mayor número de copias idénticas en el genoma con respecto a los miRNAs, a pesar de ello, del conjunto de loci repetitivos no todos necesariamente se transcriben o no todos los transcritos generados se procesan de manera alternativa para generar fragmentos funcionales. La segunda dificultad yace en discriminar las lecturas derivadas del secuenciamiento de RNAs pequeños que evidencian la expresión de un fragmento funcional a la expresión del ncRNA fuente; debido a que el conjunto de lecturas de un sfd-RNA está completamente auto-contenido en el conjunto de secuencias asignado al ncRNA fuente. Las metodologías recientes destinadas al estudio de los sfd-RNA se centran exclusivamente en un tipo de fuente de ncRNA (principalmente tRNA) y adolecen de una baja reproducibilidad en sus predicciones, dado a la omisión de los sezgos de la alineación o por el uso de métodos de normalización diseñados para génes codificantes, los cuales son más largos y menos repetitivos. Con el fin de abordar las dificultades previamente descritas para la detección y discriminación de los patrones de expresión asociados con sfd-RNAs, y teniendo en cuenta que las herramientas actuales se ocupan de uno de los dos problemas o se centran exclusivamente en una especie de ncRNA, en el presente trabajo se ha diseñado una nueva estrategia para abordar los dos problemas simultáneamente. En primer lugar, para evaluar diferentes tipos de ncRNAs, se realizó la integración de las diferentes familias a través del solapamiento entre coordenadas de ncRNAs provenientes de bases de datos como UCSC, miRBase, snoRNAbase y RNAcentral, generando un listado de coordenadas de ncRNAs noredundantes totales, en el que se resaltan solapamientos intra e inter familias. En segundo lugar, adaptando la aproximación diseñada en el programa BlockBuster, se utilizaron las coordenadas genómicas unificadas como referencia para detectar fragmentos de sfd-RNAs. Para ello, se clasificaron y organizaron las lecturas alineadas a los loci unificados teniendo en cuenta la media o coordenada central de cada lectura. Posterior a su ordenamiento por tamaño se emplearon los valores de media y desviación de la primera lectura para generar una distribución normal, que es alimentada con la subsecuentes lecturas, bajo la condición de que su valor central pertenezca al rango de simetría de la distribución normal aproximada. Los subgrupos de lecturas generadas fueron definidos como bloques de expresión de sfdRNAs sobre los que se evaluó expresión diferencial. El estudio de expresión diferencial de sfdRNAs y miRNAs se realizó basado en dieciséis estrategias computacionales que combinan cuatro algoritmos de alineamiento y cuatro métodos de normalización con el propósito de evaluar la reproducibilidad de una predicción independientemente de los métodos de alineación y de normalización empleados. La pipeline desarrollada fue probada con bibliotecas de small-RNAseq derivadas de líneas celulares humanas infectadas por Dengue y muestras de sangre de pacientes humanos con fiebre del dengue y otros estadios febriles con el fin de dar luces a dos problemas biológicos relacionados, los determinantes causales del dengue severo y el diagnóstico de las enfermedades febriles agudas inespecíficas, respectivamente. Finalmente, el enfoque desarrollado permitió abordar tanto los conflictos de anotación de los ncRNAs como también el correcto uso estadístico de las lecturas con múltiples alineamientos. Como resultado se encontró que ciertos loci detectados como sfd-RNAs habían sido previamente reportados en otras categorías como piRNAs, además 177 fragmentos derivados de tRNAs y 69 snoRNAs están ambiguamente reportados como miRNAs, piRNAs o siRNAs. Adicionalmente, en el presente trabajo se detectó expresión diferencial simultáneamente en miRNAs y sfd-RNA, algunos de estos últimos descritos previamente en la infección viral en humanos por el virus de la hepatitis C. Finalmente, se halló expresión diferencial en miRNAs y sfd-RNAs, los cuales están asociados con algunos génes blanco de regulación específico para síndromes febriles que pueden ser útiles como biomarcadores de síndromes febriles agudos. |
---|