Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos
En esta tesis de maestrı́a se propone un modelo para el análisis de variantes en regiones codificantes de genes en pacientes colombianos. Los datos corresponden a 227 pacientes a los cuales se les secuenciaron 4813 genes y se obtuvieron sus historias clı́nicas. Las variantes filtradas por calidad en...
- Autores:
-
Vélez Segura, Jennifer
- Tipo de recurso:
- Fecha de publicación:
- 2019
- Institución:
- Universidad Nacional de Colombia
- Repositorio:
- Universidad Nacional de Colombia
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unal.edu.co:unal/76432
- Acceso en línea:
- https://repositorio.unal.edu.co/handle/unal/76432
http://bdigital.unal.edu.co/72814/
- Palabra clave:
- Región codificante
Secuenciación
Minería de datos
Agrupamiento
Reglas de asociación
Modelo de datos
Características clínicas
Sequencing
Coding region,
Data mining
Clustering
Association rules
Data model
Clinical characteristics
- Rights
- openAccess
- License
- Atribución-NoComercial 4.0 Internacional
id |
UNACIONAL2_b85c61262aa684f2d3df7ecb9e8242fa |
---|---|
oai_identifier_str |
oai:repositorio.unal.edu.co:unal/76432 |
network_acronym_str |
UNACIONAL2 |
network_name_str |
Universidad Nacional de Colombia |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos |
title |
Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos |
spellingShingle |
Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos Región codificante Secuenciación Minería de datos Agrupamiento Reglas de asociación Modelo de datos Características clínicas Sequencing Coding region, Data mining Clustering Association rules Data model Clinical characteristics |
title_short |
Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos |
title_full |
Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos |
title_fullStr |
Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos |
title_full_unstemmed |
Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos |
title_sort |
Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos |
dc.creator.fl_str_mv |
Vélez Segura, Jennifer |
dc.contributor.author.spa.fl_str_mv |
Vélez Segura, Jennifer |
dc.contributor.spa.fl_str_mv |
León Guzmán, Elizabeth |
dc.subject.proposal.spa.fl_str_mv |
Región codificante Secuenciación Minería de datos Agrupamiento Reglas de asociación Modelo de datos Características clínicas Sequencing Coding region, Data mining Clustering Association rules Data model Clinical characteristics |
topic |
Región codificante Secuenciación Minería de datos Agrupamiento Reglas de asociación Modelo de datos Características clínicas Sequencing Coding region, Data mining Clustering Association rules Data model Clinical characteristics |
description |
En esta tesis de maestrı́a se propone un modelo para el análisis de variantes en regiones codificantes de genes en pacientes colombianos. Los datos corresponden a 227 pacientes a los cuales se les secuenciaron 4813 genes y se obtuvieron sus historias clı́nicas. Las variantes filtradas por calidad en cada uno de los pacientes, y las historias clı́nicas fueron almacenadas en una base de datos relacional. Se diseño e implementó un modelo de analisis que integra tres componentes: Un pipeline para la identificación de variantes; un análisis textual de historias clı́nicas, usando PLN y agrupación y un modelo de asociación usando reglas de asociación sobre las variantes y los grupos de pacientes. El objetivo del pipeline para la identificación de variantes es minimizar el error de identificación de variantes generado por el proceso de secuenciación. El análisis textual tiene como propósito identificar grupos de pacientes con patologı́as similares, según el contenido de sus historias clı́nicas como resultado se obtuvieron 5 grupos de pacientes. Las reglas de asociación fueron aplicadas a cada uno de los grupos con el fin de identificar las relaciones de las variantes entre sı́ y con los grupos de pacientes. Se realizó un análisis especı́fico para los genes CFTR y RB1 que tienen un indice de variabilidad y previamente se han asociado a fibrosis quı́stica y retinoblastoma. A través del modelo se identificaron polimorfismos para el gen CFTR y variantes patogénicas para el RB1, mostrando que los grupos de pacientes pueden asociarse a las variantes encontradas complementando la interpretación de las variantes presentes en los datos. |
publishDate |
2019 |
dc.date.issued.spa.fl_str_mv |
2019-06-20 |
dc.date.accessioned.spa.fl_str_mv |
2020-03-30T06:19:54Z |
dc.date.available.spa.fl_str_mv |
2020-03-30T06:19:54Z |
dc.type.spa.fl_str_mv |
Trabajo de grado - Maestría |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/masterThesis |
dc.type.version.spa.fl_str_mv |
info:eu-repo/semantics/acceptedVersion |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/TM |
status_str |
acceptedVersion |
dc.identifier.uri.none.fl_str_mv |
https://repositorio.unal.edu.co/handle/unal/76432 |
dc.identifier.eprints.spa.fl_str_mv |
http://bdigital.unal.edu.co/72814/ |
url |
https://repositorio.unal.edu.co/handle/unal/76432 http://bdigital.unal.edu.co/72814/ |
dc.language.iso.spa.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.spa.fl_str_mv |
Universidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial Ingeniería de Sistemas Ingeniería de Sistemas |
dc.relation.haspart.spa.fl_str_mv |
5 Ciencias naturales y matemáticas / Science 6 Tecnología (ciencias aplicadas) / Technology 61 Ciencias médicas; Medicina / Medicine and health 62 Ingeniería y operaciones afines / Engineering |
dc.relation.references.spa.fl_str_mv |
Vélez Segura, Jennifer (2019) Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos. Maestría thesis, Universidad Nacional de Colombia - Sede Bogotá. |
dc.rights.spa.fl_str_mv |
Derechos reservados - Universidad Nacional de Colombia |
dc.rights.coar.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
dc.rights.license.spa.fl_str_mv |
Atribución-NoComercial 4.0 Internacional |
dc.rights.uri.spa.fl_str_mv |
http://creativecommons.org/licenses/by-nc/4.0/ |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Atribución-NoComercial 4.0 Internacional Derechos reservados - Universidad Nacional de Colombia http://creativecommons.org/licenses/by-nc/4.0/ http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.mimetype.spa.fl_str_mv |
application/pdf |
institution |
Universidad Nacional de Colombia |
bitstream.url.fl_str_mv |
https://repositorio.unal.edu.co/bitstream/unal/76432/1/Tesis.pdf https://repositorio.unal.edu.co/bitstream/unal/76432/2/Tesis.pdf.jpg |
bitstream.checksum.fl_str_mv |
a8fc15ad219d7ad0691d2ccce4df1f9b b0758f4b8a8edc775befbd89183026ea |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional Universidad Nacional de Colombia |
repository.mail.fl_str_mv |
repositorio_nal@unal.edu.co |
_version_ |
1814089735019167744 |
spelling |
Atribución-NoComercial 4.0 InternacionalDerechos reservados - Universidad Nacional de Colombiahttp://creativecommons.org/licenses/by-nc/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2León Guzmán, ElizabethVélez Segura, Jennifere7080196-9d01-4456-9fcd-7ef5b0d179d93002020-03-30T06:19:54Z2020-03-30T06:19:54Z2019-06-20https://repositorio.unal.edu.co/handle/unal/76432http://bdigital.unal.edu.co/72814/En esta tesis de maestrı́a se propone un modelo para el análisis de variantes en regiones codificantes de genes en pacientes colombianos. Los datos corresponden a 227 pacientes a los cuales se les secuenciaron 4813 genes y se obtuvieron sus historias clı́nicas. Las variantes filtradas por calidad en cada uno de los pacientes, y las historias clı́nicas fueron almacenadas en una base de datos relacional. Se diseño e implementó un modelo de analisis que integra tres componentes: Un pipeline para la identificación de variantes; un análisis textual de historias clı́nicas, usando PLN y agrupación y un modelo de asociación usando reglas de asociación sobre las variantes y los grupos de pacientes. El objetivo del pipeline para la identificación de variantes es minimizar el error de identificación de variantes generado por el proceso de secuenciación. El análisis textual tiene como propósito identificar grupos de pacientes con patologı́as similares, según el contenido de sus historias clı́nicas como resultado se obtuvieron 5 grupos de pacientes. Las reglas de asociación fueron aplicadas a cada uno de los grupos con el fin de identificar las relaciones de las variantes entre sı́ y con los grupos de pacientes. Se realizó un análisis especı́fico para los genes CFTR y RB1 que tienen un indice de variabilidad y previamente se han asociado a fibrosis quı́stica y retinoblastoma. A través del modelo se identificaron polimorfismos para el gen CFTR y variantes patogénicas para el RB1, mostrando que los grupos de pacientes pueden asociarse a las variantes encontradas complementando la interpretación de las variantes presentes en los datos.Abstract: In this master’s thesis a model for the analysis of variants in gene coding regions in Colombian patients is proposed. The data corresponds to 4813 sequenced genes of 227 patients, their clinical histories were obtained. The variants filtered by quality in each of the patients, and the clinical histories were stored in a relational database. An analysis model was designed and implemented, it integrates three components: a pipeline for the identification of variants; a textual analysis of medical records, using PLN and clustering; and an association model that uses association rules for the variants and groups of patients. The aim of the pipeline for the identification of variants is to minimize the error of identification of the variants generated by the sequencing process. The purpose of the textual analysis is to identify groups of patients with similar pathologies. According to the content of their clinical records, 5 groups of patients were obtained as a result. The association rules were applied to each of the groups to identify the relationships of the variants among themselves and with the groups of patients. A specific analysis was performed for the CFTR and RB1 genes that have an index of variability and have previously been associated with cystic fibrosis and retinoblastoma. Through the model, the polymorphisms for the CFTR gene and the pathogenic variants for the RB1 were identified, the groups of patients can be associate with the complementary the interpretation of the variants present in the data.Maestríaapplication/pdfspaUniversidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial Ingeniería de SistemasIngeniería de Sistemas5 Ciencias naturales y matemáticas / Science6 Tecnología (ciencias aplicadas) / Technology61 Ciencias médicas; Medicina / Medicine and health62 Ingeniería y operaciones afines / EngineeringVélez Segura, Jennifer (2019) Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos. Maestría thesis, Universidad Nacional de Colombia - Sede Bogotá.Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datosTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersionTexthttp://purl.org/redcol/resource_type/TMRegión codificanteSecuenciaciónMinería de datosAgrupamientoReglas de asociaciónModelo de datosCaracterísticas clínicasSequencingCoding region,Data miningClusteringAssociation rulesData modelClinical characteristicsORIGINALTesis.pdfapplication/pdf7195144https://repositorio.unal.edu.co/bitstream/unal/76432/1/Tesis.pdfa8fc15ad219d7ad0691d2ccce4df1f9bMD51THUMBNAILTesis.pdf.jpgTesis.pdf.jpgGenerated Thumbnailimage/jpeg5006https://repositorio.unal.edu.co/bitstream/unal/76432/2/Tesis.pdf.jpgb0758f4b8a8edc775befbd89183026eaMD52unal/76432oai:repositorio.unal.edu.co:unal/764322024-07-12 23:32:26.656Repositorio Institucional Universidad Nacional de Colombiarepositorio_nal@unal.edu.co |