Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos

En esta tesis de maestrı́a se propone un modelo para el análisis de variantes en regiones codificantes de genes en pacientes colombianos. Los datos corresponden a 227 pacientes a los cuales se les secuenciaron 4813 genes y se obtuvieron sus historias clı́nicas. Las variantes filtradas por calidad en...

Full description

Autores:
Vélez Segura, Jennifer
Tipo de recurso:
Fecha de publicación:
2019
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/76432
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/76432
http://bdigital.unal.edu.co/72814/
Palabra clave:
Región codificante
Secuenciación
Minería de datos
Agrupamiento
Reglas de asociación
Modelo de datos
Características clínicas
Sequencing
Coding region,
Data mining
Clustering
Association rules
Data model
Clinical characteristics
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
Description
Summary:En esta tesis de maestrı́a se propone un modelo para el análisis de variantes en regiones codificantes de genes en pacientes colombianos. Los datos corresponden a 227 pacientes a los cuales se les secuenciaron 4813 genes y se obtuvieron sus historias clı́nicas. Las variantes filtradas por calidad en cada uno de los pacientes, y las historias clı́nicas fueron almacenadas en una base de datos relacional. Se diseño e implementó un modelo de analisis que integra tres componentes: Un pipeline para la identificación de variantes; un análisis textual de historias clı́nicas, usando PLN y agrupación y un modelo de asociación usando reglas de asociación sobre las variantes y los grupos de pacientes. El objetivo del pipeline para la identificación de variantes es minimizar el error de identificación de variantes generado por el proceso de secuenciación. El análisis textual tiene como propósito identificar grupos de pacientes con patologı́as similares, según el contenido de sus historias clı́nicas como resultado se obtuvieron 5 grupos de pacientes. Las reglas de asociación fueron aplicadas a cada uno de los grupos con el fin de identificar las relaciones de las variantes entre sı́ y con los grupos de pacientes. Se realizó un análisis especı́fico para los genes CFTR y RB1 que tienen un indice de variabilidad y previamente se han asociado a fibrosis quı́stica y retinoblastoma. A través del modelo se identificaron polimorfismos para el gen CFTR y variantes patogénicas para el RB1, mostrando que los grupos de pacientes pueden asociarse a las variantes encontradas complementando la interpretación de las variantes presentes en los datos.