Development of a variant interpretation framework for the SIGEN genomic diagnostic service

"Diagnostic of genetics diseases from high throughput DNA sequencing data is becoming a common practice. The SIGEN diagnostic service aims to offer high quality genetic diagnosis service in Colombia. However, an important concern among practitioners interpreting genetic diagnostic reports is th...

Full description

Autores:
Mahecha López, Daniel Hernán
Tipo de recurso:
Fecha de publicación:
2020
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
eng
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/48416
Acceso en línea:
http://hdl.handle.net/1992/48416
Palabra clave:
Alineamiento de secuencias (Bioinformática)
Enfermedades genéticas
Aprendizaje automático (Inteligencia artificial)
Teoría bayesiana de decisiones estadísticas
Bioinformática
Biología
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-sa/4.0/
id UNIANDES2_bce1cce0f0fa4f22f4d867cef255dc2e
oai_identifier_str oai:repositorio.uniandes.edu.co:1992/48416
network_acronym_str UNIANDES2
network_name_str Séneca: repositorio Uniandes
repository_id_str
dc.title.es_CO.fl_str_mv Development of a variant interpretation framework for the SIGEN genomic diagnostic service
title Development of a variant interpretation framework for the SIGEN genomic diagnostic service
spellingShingle Development of a variant interpretation framework for the SIGEN genomic diagnostic service
Alineamiento de secuencias (Bioinformática)
Enfermedades genéticas
Aprendizaje automático (Inteligencia artificial)
Teoría bayesiana de decisiones estadísticas
Bioinformática
Biología
title_short Development of a variant interpretation framework for the SIGEN genomic diagnostic service
title_full Development of a variant interpretation framework for the SIGEN genomic diagnostic service
title_fullStr Development of a variant interpretation framework for the SIGEN genomic diagnostic service
title_full_unstemmed Development of a variant interpretation framework for the SIGEN genomic diagnostic service
title_sort Development of a variant interpretation framework for the SIGEN genomic diagnostic service
dc.creator.fl_str_mv Mahecha López, Daniel Hernán
dc.contributor.advisor.none.fl_str_mv Duitama Castellanos, Jorge Alexander
dc.contributor.author.none.fl_str_mv Mahecha López, Daniel Hernán
dc.contributor.jury.none.fl_str_mv Lattig Matiz, María Claudia
Cardozo Álvarez, Nicolás
Bohórquez Lozano, Mabel Elena
dc.subject.armarc.es_CO.fl_str_mv Alineamiento de secuencias (Bioinformática)
Enfermedades genéticas
Aprendizaje automático (Inteligencia artificial)
Teoría bayesiana de decisiones estadísticas
Bioinformática
topic Alineamiento de secuencias (Bioinformática)
Enfermedades genéticas
Aprendizaje automático (Inteligencia artificial)
Teoría bayesiana de decisiones estadísticas
Bioinformática
Biología
dc.subject.themes.none.fl_str_mv Biología
description "Diagnostic of genetics diseases from high throughput DNA sequencing data is becoming a common practice. The SIGEN diagnostic service aims to offer high quality genetic diagnosis service in Colombia. However, an important concern among practitioners interpreting genetic diagnostic reports is the significant number of disease-related variants classified as Variants of Uncertain Significance (VUS). An additional barrier is the high cost of software and databases required in the the interpretation process. Here, we present a framework for variant interpretation using only open access software tools and databases, tested with real data from patients with suspected genetic disease. To help prioritize VUS with higher probabilities of being pathogenic, we developed different machine-learning methods. We trained and compared a Naive Bayes model, a Random Forest (RF), a Support Vector Machine, and a Five-Layer Perceptron (MLP) using variants from ClinVar classified as pathogenic, likely pathogenic, likely benign and benign on october 2019. A set of conservation scores and 1,000 human genomes global allele frequencies were used as features for model training. The RF and the MLP models showed the highest accuracy, above commonly used tools for variant deleteriousness prediction. Additionally, we developed a database of the variants found in our patient population and a web interface to make it more accessible."--Tomado del Formato de Documento de Grado
publishDate 2020
dc.date.issued.es_CO.fl_str_mv 2020
dc.date.accessioned.none.fl_str_mv 2021-02-18T12:21:26Z
dc.date.available.none.fl_str_mv 2021-02-18T12:21:26Z
dc.type.spa.fl_str_mv Trabajo de grado - Maestría
dc.type.coarversion.fl_str_mv http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.content.spa.fl_str_mv Text
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/TM
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/1992/48416
dc.identifier.pdf.none.fl_str_mv u833439.pdf
dc.identifier.instname.spa.fl_str_mv instname:Universidad de los Andes
dc.identifier.reponame.spa.fl_str_mv reponame:Repositorio Institucional Séneca
dc.identifier.repourl.spa.fl_str_mv repourl:https://repositorio.uniandes.edu.co/
url http://hdl.handle.net/1992/48416
identifier_str_mv u833439.pdf
instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
repourl:https://repositorio.uniandes.edu.co/
dc.language.iso.es_CO.fl_str_mv eng
language eng
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.es_CO.fl_str_mv 30 hojas
dc.format.mimetype.es_CO.fl_str_mv application/pdf
dc.publisher.es_CO.fl_str_mv Universidad de los Andes
dc.publisher.program.es_CO.fl_str_mv Maestría en Biología Computacional
dc.publisher.faculty.es_CO.fl_str_mv Facultad de Ciencias
dc.publisher.department.es_CO.fl_str_mv Departamento de Biología
dc.source.es_CO.fl_str_mv instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
instname_str Universidad de los Andes
institution Universidad de los Andes
reponame_str Repositorio Institucional Séneca
collection Repositorio Institucional Séneca
bitstream.url.fl_str_mv https://repositorio.uniandes.edu.co/bitstreams/1c5a87b3-dfa0-4f99-b087-3f5613ae3ab0/download
https://repositorio.uniandes.edu.co/bitstreams/b1b74041-7677-4cc9-8ead-176798e82377/download
https://repositorio.uniandes.edu.co/bitstreams/c15a3e94-a549-48f4-949f-ce1ba35ac069/download
bitstream.checksum.fl_str_mv ddd62b528e5983189bb139861bd209ab
137316d56b03ba129695716edfc16311
e739af8df3402120bcdde7c1f0ba0690
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio institucional Séneca
repository.mail.fl_str_mv adminrepositorio@uniandes.edu.co
_version_ 1808390365236953088
spelling Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.http://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Duitama Castellanos, Jorge Alexandervirtual::10817-1Mahecha López, Daniel Hernán4f086ced-8696-46a4-a8fd-18791ef3300d500Lattig Matiz, María ClaudiaCardozo Álvarez, NicolásBohórquez Lozano, Mabel Elena2021-02-18T12:21:26Z2021-02-18T12:21:26Z2020http://hdl.handle.net/1992/48416u833439.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/"Diagnostic of genetics diseases from high throughput DNA sequencing data is becoming a common practice. The SIGEN diagnostic service aims to offer high quality genetic diagnosis service in Colombia. However, an important concern among practitioners interpreting genetic diagnostic reports is the significant number of disease-related variants classified as Variants of Uncertain Significance (VUS). An additional barrier is the high cost of software and databases required in the the interpretation process. Here, we present a framework for variant interpretation using only open access software tools and databases, tested with real data from patients with suspected genetic disease. To help prioritize VUS with higher probabilities of being pathogenic, we developed different machine-learning methods. We trained and compared a Naive Bayes model, a Random Forest (RF), a Support Vector Machine, and a Five-Layer Perceptron (MLP) using variants from ClinVar classified as pathogenic, likely pathogenic, likely benign and benign on october 2019. A set of conservation scores and 1,000 human genomes global allele frequencies were used as features for model training. The RF and the MLP models showed the highest accuracy, above commonly used tools for variant deleteriousness prediction. Additionally, we developed a database of the variants found in our patient population and a web interface to make it more accessible."--Tomado del Formato de Documento de Grado"El diagnóstico de enfermedades genéticas con secuenciación de ADN de alto rendimiento es una práctica cada vez más común. El servicio de diagnóstico de SIGEN tiene como objetivo ofrecer diagnóstico genético de calidad en Colombia. Sin embargo, el trabajo de los especialistas que interpretan los reportes diagnósticos es el alto número de Variantes de Significado Incierto (VUS). Adicionalmente, el alto costo del software y las bases de datos usadas en el proceso de interpretación son una barrera para su implementación. En el presente trabajo, se presenta un proceso de interpretación de variantes utilizando únicamente software y bases de datos de acceso libre, evaluado en datos reales de pacientes con sospecha de enfermedades genéticas. Para priorizar las VUS con mayor probabilidad de ser patogénicas, se desarrollaron diferentes métodos de Machine Learning. Se entrenaron y compararon modelos basados en Bayes Ingenuo, Bosque Aleatorio (RF), Máquina de Soporte Vectorial y un Perceptron de Cinco Capas (MLP) usando variantes de ClinVar clasificadas como patogénicas, probablemente patogénicas, probablemente benignas y benignas en octubre de 2019. Como atributos para el entrenamiento se utilizó un conjunto de puntajes de conservación y las frecuencias alélicas globales del proyecto de 1000 genomas humanos. Los módelos basados en RF y MLP mostraron la exactitud más alta, sobre herramientas usadas comúnmente en la predicción de variantes. Adicionalmente, se desarrolló una base de datos de las variantes encontradas en nuestra población de pacientes y una interfaz web para facilitar su accesibilidad."--Tomado del Formato de Documento de GradoMagíster en Biología ComputacionalMaestría30 hojasapplication/pdfengUniversidad de los AndesMaestría en Biología ComputacionalFacultad de CienciasDepartamento de Biologíainstname:Universidad de los Andesreponame:Repositorio Institucional SénecaDevelopment of a variant interpretation framework for the SIGEN genomic diagnostic serviceTrabajo de grado - Maestríainfo:eu-repo/semantics/masterThesishttp://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/TMAlineamiento de secuencias (Bioinformática)Enfermedades genéticasAprendizaje automático (Inteligencia artificial)Teoría bayesiana de decisiones estadísticasBioinformáticaBiologíaPublication07e4ae59-26ee-4988-9701-129fa965d270virtual::10817-107e4ae59-26ee-4988-9701-129fa965d270virtual::10817-1THUMBNAILu833439.pdf.jpgu833439.pdf.jpgIM Thumbnailimage/jpeg7581https://repositorio.uniandes.edu.co/bitstreams/1c5a87b3-dfa0-4f99-b087-3f5613ae3ab0/downloadddd62b528e5983189bb139861bd209abMD55TEXTu833439.pdf.txtu833439.pdf.txtExtracted texttext/plain67166https://repositorio.uniandes.edu.co/bitstreams/b1b74041-7677-4cc9-8ead-176798e82377/download137316d56b03ba129695716edfc16311MD54ORIGINALu833439.pdfapplication/pdf2858231https://repositorio.uniandes.edu.co/bitstreams/c15a3e94-a549-48f4-949f-ce1ba35ac069/downloade739af8df3402120bcdde7c1f0ba0690MD511992/48416oai:repositorio.uniandes.edu.co:1992/484162024-03-13 14:16:55.325http://creativecommons.org/licenses/by-nc-sa/4.0/open.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co