Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos

En esta tesis de maestrı́a se propone un modelo para el análisis de variantes en regiones codificantes de genes en pacientes colombianos. Los datos corresponden a 227 pacientes a los cuales se les secuenciaron 4813 genes y se obtuvieron sus historias clı́nicas. Las variantes filtradas por calidad en...

Full description

Autores:
Vélez Segura, Jennifer
Tipo de recurso:
Fecha de publicación:
2019
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/76432
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/76432
http://bdigital.unal.edu.co/72814/
Palabra clave:
Región codificante
Secuenciación
Minería de datos
Agrupamiento
Reglas de asociación
Modelo de datos
Características clínicas
Sequencing
Coding region,
Data mining
Clustering
Association rules
Data model
Clinical characteristics
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
id UNACIONAL2_b85c61262aa684f2d3df7ecb9e8242fa
oai_identifier_str oai:repositorio.unal.edu.co:unal/76432
network_acronym_str UNACIONAL2
network_name_str Universidad Nacional de Colombia
repository_id_str
dc.title.spa.fl_str_mv Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos
title Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos
spellingShingle Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos
Región codificante
Secuenciación
Minería de datos
Agrupamiento
Reglas de asociación
Modelo de datos
Características clínicas
Sequencing
Coding region,
Data mining
Clustering
Association rules
Data model
Clinical characteristics
title_short Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos
title_full Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos
title_fullStr Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos
title_full_unstemmed Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos
title_sort Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos
dc.creator.fl_str_mv Vélez Segura, Jennifer
dc.contributor.author.spa.fl_str_mv Vélez Segura, Jennifer
dc.contributor.spa.fl_str_mv León Guzmán, Elizabeth
dc.subject.proposal.spa.fl_str_mv Región codificante
Secuenciación
Minería de datos
Agrupamiento
Reglas de asociación
Modelo de datos
Características clínicas
Sequencing
Coding region,
Data mining
Clustering
Association rules
Data model
Clinical characteristics
topic Región codificante
Secuenciación
Minería de datos
Agrupamiento
Reglas de asociación
Modelo de datos
Características clínicas
Sequencing
Coding region,
Data mining
Clustering
Association rules
Data model
Clinical characteristics
description En esta tesis de maestrı́a se propone un modelo para el análisis de variantes en regiones codificantes de genes en pacientes colombianos. Los datos corresponden a 227 pacientes a los cuales se les secuenciaron 4813 genes y se obtuvieron sus historias clı́nicas. Las variantes filtradas por calidad en cada uno de los pacientes, y las historias clı́nicas fueron almacenadas en una base de datos relacional. Se diseño e implementó un modelo de analisis que integra tres componentes: Un pipeline para la identificación de variantes; un análisis textual de historias clı́nicas, usando PLN y agrupación y un modelo de asociación usando reglas de asociación sobre las variantes y los grupos de pacientes. El objetivo del pipeline para la identificación de variantes es minimizar el error de identificación de variantes generado por el proceso de secuenciación. El análisis textual tiene como propósito identificar grupos de pacientes con patologı́as similares, según el contenido de sus historias clı́nicas como resultado se obtuvieron 5 grupos de pacientes. Las reglas de asociación fueron aplicadas a cada uno de los grupos con el fin de identificar las relaciones de las variantes entre sı́ y con los grupos de pacientes. Se realizó un análisis especı́fico para los genes CFTR y RB1 que tienen un indice de variabilidad y previamente se han asociado a fibrosis quı́stica y retinoblastoma. A través del modelo se identificaron polimorfismos para el gen CFTR y variantes patogénicas para el RB1, mostrando que los grupos de pacientes pueden asociarse a las variantes encontradas complementando la interpretación de las variantes presentes en los datos.
publishDate 2019
dc.date.issued.spa.fl_str_mv 2019-06-20
dc.date.accessioned.spa.fl_str_mv 2020-03-30T06:19:54Z
dc.date.available.spa.fl_str_mv 2020-03-30T06:19:54Z
dc.type.spa.fl_str_mv Trabajo de grado - Maestría
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/acceptedVersion
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TM
status_str acceptedVersion
dc.identifier.uri.none.fl_str_mv https://repositorio.unal.edu.co/handle/unal/76432
dc.identifier.eprints.spa.fl_str_mv http://bdigital.unal.edu.co/72814/
url https://repositorio.unal.edu.co/handle/unal/76432
http://bdigital.unal.edu.co/72814/
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.ispartof.spa.fl_str_mv Universidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial Ingeniería de Sistemas
Ingeniería de Sistemas
dc.relation.haspart.spa.fl_str_mv 5 Ciencias naturales y matemáticas / Science
6 Tecnología (ciencias aplicadas) / Technology
61 Ciencias médicas; Medicina / Medicine and health
62 Ingeniería y operaciones afines / Engineering
dc.relation.references.spa.fl_str_mv Vélez Segura, Jennifer (2019) Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos. Maestría thesis, Universidad Nacional de Colombia - Sede Bogotá.
dc.rights.spa.fl_str_mv Derechos reservados - Universidad Nacional de Colombia
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.spa.fl_str_mv Atribución-NoComercial 4.0 Internacional
dc.rights.uri.spa.fl_str_mv http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribución-NoComercial 4.0 Internacional
Derechos reservados - Universidad Nacional de Colombia
http://creativecommons.org/licenses/by-nc/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.mimetype.spa.fl_str_mv application/pdf
institution Universidad Nacional de Colombia
bitstream.url.fl_str_mv https://repositorio.unal.edu.co/bitstream/unal/76432/1/Tesis.pdf
https://repositorio.unal.edu.co/bitstream/unal/76432/2/Tesis.pdf.jpg
bitstream.checksum.fl_str_mv a8fc15ad219d7ad0691d2ccce4df1f9b
b0758f4b8a8edc775befbd89183026ea
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad Nacional de Colombia
repository.mail.fl_str_mv repositorio_nal@unal.edu.co
_version_ 1814089735019167744
spelling Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2León Guzmán, ElizabethVélez Segura, Jennifere7080196-9d01-4456-9fcd-7ef5b0d179d93002020-03-30T06:19:54Z2020-03-30T06:19:54Z2019-06-20https://repositorio.unal.edu.co/handle/unal/76432http://bdigital.unal.edu.co/72814/En esta tesis de maestrı́a se propone un modelo para el análisis de variantes en regiones codificantes de genes en pacientes colombianos. Los datos corresponden a 227 pacientes a los cuales se les secuenciaron 4813 genes y se obtuvieron sus historias clı́nicas. Las variantes filtradas por calidad en cada uno de los pacientes, y las historias clı́nicas fueron almacenadas en una base de datos relacional. Se diseño e implementó un modelo de analisis que integra tres componentes: Un pipeline para la identificación de variantes; un análisis textual de historias clı́nicas, usando PLN y agrupación y un modelo de asociación usando reglas de asociación sobre las variantes y los grupos de pacientes. El objetivo del pipeline para la identificación de variantes es minimizar el error de identificación de variantes generado por el proceso de secuenciación. El análisis textual tiene como propósito identificar grupos de pacientes con patologı́as similares, según el contenido de sus historias clı́nicas como resultado se obtuvieron 5 grupos de pacientes. Las reglas de asociación fueron aplicadas a cada uno de los grupos con el fin de identificar las relaciones de las variantes entre sı́ y con los grupos de pacientes. Se realizó un análisis especı́fico para los genes CFTR y RB1 que tienen un indice de variabilidad y previamente se han asociado a fibrosis quı́stica y retinoblastoma. A través del modelo se identificaron polimorfismos para el gen CFTR y variantes patogénicas para el RB1, mostrando que los grupos de pacientes pueden asociarse a las variantes encontradas complementando la interpretación de las variantes presentes en los datos.Abstract: In this master’s thesis a model for the analysis of variants in gene coding regions in Colombian patients is proposed. The data corresponds to 4813 sequenced genes of 227 patients, their clinical histories were obtained. The variants filtered by quality in each of the patients, and the clinical histories were stored in a relational database. An analysis model was designed and implemented, it integrates three components: a pipeline for the identification of variants; a textual analysis of medical records, using PLN and clustering; and an association model that uses association rules for the variants and groups of patients. The aim of the pipeline for the identification of variants is to minimize the error of identification of the variants generated by the sequencing process. The purpose of the textual analysis is to identify groups of patients with similar pathologies. According to the content of their clinical records, 5 groups of patients were obtained as a result. The association rules were applied to each of the groups to identify the relationships of the variants among themselves and with the groups of patients. A specific analysis was performed for the CFTR and RB1 genes that have an index of variability and have previously been associated with cystic fibrosis and retinoblastoma. Through the model, the polymorphisms for the CFTR gene and the pathogenic variants for the RB1 were identified, the groups of patients can be associate with the complementary the interpretation of the variants present in the data.Maestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial Ingeniería de SistemasIngeniería de Sistemas5 Ciencias naturales y matemáticas / Science6 Tecnología (ciencias aplicadas) / Technology61 Ciencias médicas; Medicina / Medicine and health62 Ingeniería y operaciones afines / EngineeringVélez Segura, Jennifer (2019) Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos. Maestría thesis, Universidad Nacional de Colombia - Sede Bogotá.Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datosTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMRegión codificanteSecuenciaciónMinería de datosAgrupamientoReglas de asociaciónModelo de datosCaracterísticas clínicasSequencingCoding region,Data miningClusteringAssociation rulesData modelClinical characteristicsORIGINALTesis.pdfapplication/pdf7195144https://repositorio.unal.edu.co/bitstream/unal/76432/1/Tesis.pdfa8fc15ad219d7ad0691d2ccce4df1f9bMD51THUMBNAILTesis.pdf.jpgTesis.pdf.jpgGenerated Thumbnailimage/jpeg5006https://repositorio.unal.edu.co/bitstream/unal/76432/2/Tesis.pdf.jpgb0758f4b8a8edc775befbd89183026eaMD52unal/76432oai:repositorio.unal.edu.co:unal/764322024-07-12 23:32:26.656Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co