Predicción de la estabilidad térmica de proteínas usando Machine Learning
Este informe presenta el desarrollo de una herramienta computacional basada en aprendizaje automático para predecir la estabilidad térmica de proteínas, medida como la temperatura de fusión (Tm), a partir de su secuencia primaria de aminoácidos. La estabilidad térmica es un parámetro fundamental en...
- Autores:
-
Lizarazo Piqueras, María Alejandra
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2025
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/76408
- Acceso en línea:
- https://hdl.handle.net/1992/76408
- Palabra clave:
- Machine Learning
Proteínas
Estabilidad Térmica
Aprendizaje automatico
Predicción
Modelo ML
Iterfaz web
Ingeniería
- Rights
- openAccess
- License
- Attribution-NonCommercial-ShareAlike 4.0 International
Summary: | Este informe presenta el desarrollo de una herramienta computacional basada en aprendizaje automático para predecir la estabilidad térmica de proteínas, medida como la temperatura de fusión (Tm), a partir de su secuencia primaria de aminoácidos. La estabilidad térmica es un parámetro fundamental en biotecnología, farmacología e ingeniería de procesos, ya que determina la viabilidad funcional de una proteína en distintas condiciones operativas. Tradicionalmente, el cálculo de Tm se ha realizado mediante técnicas experimentales que requieren equipamiento especializado, insumos costosos y largos tiempos de análisis. Ante este panorama, se propone una solución computacional que utiliza representaciones numéricas avanzadas —embeddings proteicos— generadas por modelos de lenguaje como ESM-2, los cuales han sido entrenados sobre millones de secuencias proteicas. A lo largo del proyecto, se implementaron y evaluaron múltiples modelos de predicción, incluyendo algoritmos tradicionales (Random Forest, Bayesian Ridge, KNN, SVR) y redes neuronales profundas (MLP y LSTM), utilizando bases de datos experimentales como ProthermDB y Meltome Atlas (ver descripción estructurada de ambas en el Apéndice B). Los resultados muestran que el modelo LSTM entrenado con embeddings de ESM-2 alcanzó una precisión destacable (R2 = 0.74), superando a otras arquitecturas en precisión. Este modelo fue seleccionado como base para la construcción de una interfaz web, que permite a cualquier usuario ingresar una secuencia de aminoácidos y obtener una predicción inmediata de Tm, sin necesidad de conocimientos técnicos. El sistema desarrollado contribuye a cerrar la brecha entre la disponibilidad de datos biológicos y su aprovechamiento efectivo, promoviendo la adopción de técnicas de inteligencia artificial en entornos reales. Asimismo, representa un avance significativo hacia la automatización del diseño y análisis de proteínas, con aplicaciones potenciales en el desarrollo de enzimas industriales, productos farmacéuticos y soluciones bioingenieriles. Finalmente, se plantea una hoja de ruta para futuras iteraciones que incluya mejoras en interpretabilidad, expansión de la base de datos, y despliegue en entornos escalables. |
---|