Machine learning with data augmentation to predict glucantime effectiveness against cutaneous leishmaniasis

Enfrentar problemas de análisis de datos en pequeños conjuntos de datos es un problema común en la investigación médica; asimismo, es un problema que dificulta mucho la aplicación y el éxito de los algoritmos clásicos de aprendizaje automático. Muchas técnicas han abordado el problema de un pequeño...

Full description

Autores:
Hoyos Urcué, Juan José
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2021
Institución:
Pontificia Universidad Javeriana Cali
Repositorio:
Vitela
Idioma:
eng
OAI Identifier:
oai:vitela.javerianacali.edu.co:11522/2841
Acceso en línea:
https://vitela.javerianacali.edu.co/handle/11522/2841
Palabra clave:
Machine Learning
Tabular data augmentation
Cutaneous leishmaniasis
Infectious disease
Synthetic data
Small dataset
K-Nearest neighbors
Logistic regression
Support vector machines
Rights
License
https://creativecommons.org/licenses/by-nc-nd/4.0/
Description
Summary:Enfrentar problemas de análisis de datos en pequeños conjuntos de datos es un problema común en la investigación médica; asimismo, es un problema que dificulta mucho la aplicación y el éxito de los algoritmos clásicos de aprendizaje automático. Muchas técnicas han abordado el problema de un pequeño conjunto de datos, principalmente para los campos de visión artificial y procesamiento de imágenes. Sin embargo, para los datos tabulares, se ha difundido muy poco. En este trabajo de grado se propone el uso de técnicas de aumento de datos tabulares para introducir instancias sintéticas bastante similares a las reales, particularmente en el contexto de un problema médico/social de predecir la efectividad de Glucantime como tratamiento contra la Leishmaniasis cutánea. Los experimentos muestran que el uso de estos algoritmos de aumento de datos mejora las características del conjunto de datos inicial y el rendimiento de los modelos de aprendizaje automático. El conjunto de datos utilizado en esta investigación tiene diez atributos y 18 registros.