Development of a variant interpretation framework for the SIGEN genomic diagnostic service
"Diagnostic of genetics diseases from high throughput DNA sequencing data is becoming a common practice. The SIGEN diagnostic service aims to offer high quality genetic diagnosis service in Colombia. However, an important concern among practitioners interpreting genetic diagnostic reports is th...
- Autores:
-
Mahecha López, Daniel Hernán
- Tipo de recurso:
- Fecha de publicación:
- 2020
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- eng
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/48416
- Acceso en línea:
- http://hdl.handle.net/1992/48416
- Palabra clave:
- Alineamiento de secuencias (Bioinformática)
Enfermedades genéticas
Aprendizaje automático (Inteligencia artificial)
Teoría bayesiana de decisiones estadísticas
Bioinformática
Biología
- Rights
- openAccess
- License
- http://creativecommons.org/licenses/by-nc-sa/4.0/
id |
UNIANDES2_bce1cce0f0fa4f22f4d867cef255dc2e |
---|---|
oai_identifier_str |
oai:repositorio.uniandes.edu.co:1992/48416 |
network_acronym_str |
UNIANDES2 |
network_name_str |
Séneca: repositorio Uniandes |
repository_id_str |
|
dc.title.es_CO.fl_str_mv |
Development of a variant interpretation framework for the SIGEN genomic diagnostic service |
title |
Development of a variant interpretation framework for the SIGEN genomic diagnostic service |
spellingShingle |
Development of a variant interpretation framework for the SIGEN genomic diagnostic service Alineamiento de secuencias (Bioinformática) Enfermedades genéticas Aprendizaje automático (Inteligencia artificial) Teoría bayesiana de decisiones estadísticas Bioinformática Biología |
title_short |
Development of a variant interpretation framework for the SIGEN genomic diagnostic service |
title_full |
Development of a variant interpretation framework for the SIGEN genomic diagnostic service |
title_fullStr |
Development of a variant interpretation framework for the SIGEN genomic diagnostic service |
title_full_unstemmed |
Development of a variant interpretation framework for the SIGEN genomic diagnostic service |
title_sort |
Development of a variant interpretation framework for the SIGEN genomic diagnostic service |
dc.creator.fl_str_mv |
Mahecha López, Daniel Hernán |
dc.contributor.advisor.none.fl_str_mv |
Duitama Castellanos, Jorge Alexander |
dc.contributor.author.none.fl_str_mv |
Mahecha López, Daniel Hernán |
dc.contributor.jury.none.fl_str_mv |
Lattig Matiz, María Claudia Cardozo Álvarez, Nicolás Bohórquez Lozano, Mabel Elena |
dc.subject.armarc.es_CO.fl_str_mv |
Alineamiento de secuencias (Bioinformática) Enfermedades genéticas Aprendizaje automático (Inteligencia artificial) Teoría bayesiana de decisiones estadísticas Bioinformática |
topic |
Alineamiento de secuencias (Bioinformática) Enfermedades genéticas Aprendizaje automático (Inteligencia artificial) Teoría bayesiana de decisiones estadísticas Bioinformática Biología |
dc.subject.themes.none.fl_str_mv |
Biología |
description |
"Diagnostic of genetics diseases from high throughput DNA sequencing data is becoming a common practice. The SIGEN diagnostic service aims to offer high quality genetic diagnosis service in Colombia. However, an important concern among practitioners interpreting genetic diagnostic reports is the significant number of disease-related variants classified as Variants of Uncertain Significance (VUS). An additional barrier is the high cost of software and databases required in the the interpretation process. Here, we present a framework for variant interpretation using only open access software tools and databases, tested with real data from patients with suspected genetic disease. To help prioritize VUS with higher probabilities of being pathogenic, we developed different machine-learning methods. We trained and compared a Naive Bayes model, a Random Forest (RF), a Support Vector Machine, and a Five-Layer Perceptron (MLP) using variants from ClinVar classified as pathogenic, likely pathogenic, likely benign and benign on october 2019. A set of conservation scores and 1,000 human genomes global allele frequencies were used as features for model training. The RF and the MLP models showed the highest accuracy, above commonly used tools for variant deleteriousness prediction. Additionally, we developed a database of the variants found in our patient population and a web interface to make it more accessible."--Tomado del Formato de Documento de Grado |
publishDate |
2020 |
dc.date.issued.es_CO.fl_str_mv |
2020 |
dc.date.accessioned.none.fl_str_mv |
2021-02-18T12:21:26Z |
dc.date.available.none.fl_str_mv |
2021-02-18T12:21:26Z |
dc.type.spa.fl_str_mv |
Trabajo de grado - Maestría |
dc.type.coarversion.fl_str_mv |
http://purl.org/coar/version/c_970fb48d4fbd8a85 |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/masterThesis |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/TM |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/1992/48416 |
dc.identifier.pdf.none.fl_str_mv |
u833439.pdf |
dc.identifier.instname.spa.fl_str_mv |
instname:Universidad de los Andes |
dc.identifier.reponame.spa.fl_str_mv |
reponame:Repositorio Institucional Séneca |
dc.identifier.repourl.spa.fl_str_mv |
repourl:https://repositorio.uniandes.edu.co/ |
url |
http://hdl.handle.net/1992/48416 |
identifier_str_mv |
u833439.pdf instname:Universidad de los Andes reponame:Repositorio Institucional Séneca repourl:https://repositorio.uniandes.edu.co/ |
dc.language.iso.es_CO.fl_str_mv |
eng |
language |
eng |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.coar.spa.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.extent.es_CO.fl_str_mv |
30 hojas |
dc.format.mimetype.es_CO.fl_str_mv |
application/pdf |
dc.publisher.es_CO.fl_str_mv |
Universidad de los Andes |
dc.publisher.program.es_CO.fl_str_mv |
Maestría en Biología Computacional |
dc.publisher.faculty.es_CO.fl_str_mv |
Facultad de Ciencias |
dc.publisher.department.es_CO.fl_str_mv |
Departamento de Biología |
dc.source.es_CO.fl_str_mv |
instname:Universidad de los Andes reponame:Repositorio Institucional Séneca |
instname_str |
Universidad de los Andes |
institution |
Universidad de los Andes |
reponame_str |
Repositorio Institucional Séneca |
collection |
Repositorio Institucional Séneca |
bitstream.url.fl_str_mv |
https://repositorio.uniandes.edu.co/bitstreams/1c5a87b3-dfa0-4f99-b087-3f5613ae3ab0/download https://repositorio.uniandes.edu.co/bitstreams/b1b74041-7677-4cc9-8ead-176798e82377/download https://repositorio.uniandes.edu.co/bitstreams/c15a3e94-a549-48f4-949f-ce1ba35ac069/download |
bitstream.checksum.fl_str_mv |
ddd62b528e5983189bb139861bd209ab 137316d56b03ba129695716edfc16311 e739af8df3402120bcdde7c1f0ba0690 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio institucional Séneca |
repository.mail.fl_str_mv |
adminrepositorio@uniandes.edu.co |
_version_ |
1818111891875037184 |
spelling |
Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.http://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Duitama Castellanos, Jorge Alexandervirtual::10817-1Mahecha López, Daniel Hernán4f086ced-8696-46a4-a8fd-18791ef3300d500Lattig Matiz, María ClaudiaCardozo Álvarez, NicolásBohórquez Lozano, Mabel Elena2021-02-18T12:21:26Z2021-02-18T12:21:26Z2020http://hdl.handle.net/1992/48416u833439.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/"Diagnostic of genetics diseases from high throughput DNA sequencing data is becoming a common practice. The SIGEN diagnostic service aims to offer high quality genetic diagnosis service in Colombia. However, an important concern among practitioners interpreting genetic diagnostic reports is the significant number of disease-related variants classified as Variants of Uncertain Significance (VUS). An additional barrier is the high cost of software and databases required in the the interpretation process. Here, we present a framework for variant interpretation using only open access software tools and databases, tested with real data from patients with suspected genetic disease. To help prioritize VUS with higher probabilities of being pathogenic, we developed different machine-learning methods. We trained and compared a Naive Bayes model, a Random Forest (RF), a Support Vector Machine, and a Five-Layer Perceptron (MLP) using variants from ClinVar classified as pathogenic, likely pathogenic, likely benign and benign on october 2019. A set of conservation scores and 1,000 human genomes global allele frequencies were used as features for model training. The RF and the MLP models showed the highest accuracy, above commonly used tools for variant deleteriousness prediction. Additionally, we developed a database of the variants found in our patient population and a web interface to make it more accessible."--Tomado del Formato de Documento de Grado"El diagnóstico de enfermedades genéticas con secuenciación de ADN de alto rendimiento es una práctica cada vez más común. El servicio de diagnóstico de SIGEN tiene como objetivo ofrecer diagnóstico genético de calidad en Colombia. Sin embargo, el trabajo de los especialistas que interpretan los reportes diagnósticos es el alto número de Variantes de Significado Incierto (VUS). Adicionalmente, el alto costo del software y las bases de datos usadas en el proceso de interpretación son una barrera para su implementación. En el presente trabajo, se presenta un proceso de interpretación de variantes utilizando únicamente software y bases de datos de acceso libre, evaluado en datos reales de pacientes con sospecha de enfermedades genéticas. Para priorizar las VUS con mayor probabilidad de ser patogénicas, se desarrollaron diferentes métodos de Machine Learning. Se entrenaron y compararon modelos basados en Bayes Ingenuo, Bosque Aleatorio (RF), Máquina de Soporte Vectorial y un Perceptron de Cinco Capas (MLP) usando variantes de ClinVar clasificadas como patogénicas, probablemente patogénicas, probablemente benignas y benignas en octubre de 2019. Como atributos para el entrenamiento se utilizó un conjunto de puntajes de conservación y las frecuencias alélicas globales del proyecto de 1000 genomas humanos. Los módelos basados en RF y MLP mostraron la exactitud más alta, sobre herramientas usadas comúnmente en la predicción de variantes. Adicionalmente, se desarrolló una base de datos de las variantes encontradas en nuestra población de pacientes y una interfaz web para facilitar su accesibilidad."--Tomado del Formato de Documento de GradoMagíster en Biología ComputacionalMaestría30 hojasapplication/pdfengUniversidad de los AndesMaestría en Biología ComputacionalFacultad de CienciasDepartamento de Biologíainstname:Universidad de los Andesreponame:Repositorio Institucional SénecaDevelopment of a variant interpretation framework for the SIGEN genomic diagnostic serviceTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesishttp://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/TMAlineamiento de secuencias (Bioinformática)Enfermedades genéticasAprendizaje automático (Inteligencia artificial)Teoría bayesiana de decisiones estadísticasBioinformáticaBiologíaPublication07e4ae59-26ee-4988-9701-129fa965d270virtual::10817-107e4ae59-26ee-4988-9701-129fa965d270virtual::10817-1THUMBNAILu833439.pdf.jpgu833439.pdf.jpgIM Thumbnailimage/jpeg7581https://repositorio.uniandes.edu.co/bitstreams/1c5a87b3-dfa0-4f99-b087-3f5613ae3ab0/downloadddd62b528e5983189bb139861bd209abMD55TEXTu833439.pdf.txtu833439.pdf.txtExtracted texttext/plain67166https://repositorio.uniandes.edu.co/bitstreams/b1b74041-7677-4cc9-8ead-176798e82377/download137316d56b03ba129695716edfc16311MD54ORIGINALu833439.pdfapplication/pdf2858231https://repositorio.uniandes.edu.co/bitstreams/c15a3e94-a549-48f4-949f-ce1ba35ac069/downloade739af8df3402120bcdde7c1f0ba0690MD511992/48416oai:repositorio.uniandes.edu.co:1992/484162024-03-13 14:16:55.325http://creativecommons.org/licenses/by-nc-sa/4.0/open.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co |