Algoritmo de encadenamiento de coincidencias basado en entropías para el mapeo de lecturas largas

Este trabajo presenta el desarrollo de un nuevo algoritmo de encadenamiento de coincidencias para el mapeo de lecturas largas de ADN a genomas de referencia. El enfoque propuesto se basa en la estrategia clásica de anclaje, encadenamiento y extensión, pero introduce innovaciones clave como el uso de...

Full description

Autores:
Rozo Fajardo, Nicolás
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2025
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/76233
Acceso en línea:
https://hdl.handle.net/1992/76233
Palabra clave:
Bioinformática
Lecturas largas
Alineamiento de lecturas
Entropía
Minimizers
Ingeniería
Rights
openAccess
License
Attribution 4.0 International
Description
Summary:Este trabajo presenta el desarrollo de un nuevo algoritmo de encadenamiento de coincidencias para el mapeo de lecturas largas de ADN a genomas de referencia. El enfoque propuesto se basa en la estrategia clásica de anclaje, encadenamiento y extensión, pero introduce innovaciones clave como el uso de minimizers ponderados por entropía de Shannon y técnicas de agrupación refinada para mejorar la identificación de regiones informativas y reducir el impacto de secuencias repetitivas. El algoritmo fue implementado en Java e integrado dentro del framework bioinformático NGSEP (Next Generation Sequencing Experience Platform), permitiendo su uso en análisis genómicos reales. Se evaluó su desempeño mediante pruebas con datos simulados y reales de secuenciación PacBio HiFi, comparándolo con herramientas de referencia como Minimap2 y Winnowmap2. Los resultados muestran que el nuevo algoritmo mejora la calidad de los alineamientos en comparación con versiones anteriores de NGSEP, aunque aún presenta desafíos en términos de eficiencia temporal frente a herramientas implementadas en lenguajes de bajo nivel. Se concluye que el enfoque basado en entropía proporciona una alternativa robusta y precisa para el mapeo de lecturas largas, especialmente en regiones genómicas complejas.