Implementación de algoritmos de parallel boosting

En este trabajo de grado, se desarrollaron los diferentes algoritmos pertenecientes a la técnica de Boosting paralelo en Python. Para esto, se utilizaron librerías comunes en computación científica como lo son Scikit-Learn para el entrenamiento de modelos débiles, NumPy para el tratamiento de estruc...

Full description

Autores:
López Rubiano, Daniel Felipe
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2024
Institución:
Universidad de los Andes
Repositorio:
Séneca: repositorio Uniandes
Idioma:
spa
OAI Identifier:
oai:repositorio.uniandes.edu.co:1992/73842
Acceso en línea:
https://hdl.handle.net/1992/73842
Palabra clave:
Machine learning
Boosting
Decission trees
Adaboost
XGboost
Parallel computing
Ingeniería
Rights
openAccess
License
https://repositorio.uniandes.edu.co/static/pdf/aceptacion_uso_es.pdf
Description
Summary:En este trabajo de grado, se desarrollaron los diferentes algoritmos pertenecientes a la técnica de Boosting paralelo en Python. Para esto, se utilizaron librerías comunes en computación científica como lo son Scikit-Learn para el entrenamiento de modelos débiles, NumPy para el tratamiento de estructuras de datos y Joblib para el tratamiento de la computación paralela. Adicionalmente, se evaluaron sus desempeños en conjuntos de datos modernos. Particularmente, los algoritmos y conjuntos de datos tratados son enfocados en el problema de clasificación binario, con lo cual se utilizaron bases de datos que tratan problemas como el de identificar señales del bosón de Higgs en el acelerador de partículas o identificar que reclamos al seguro de autos resultaron en una retribución. Las pruebas realizadas en conjuntos de datos modificados de los anteriormente mostrados, señalaron que la técnica de Parallel Boosting mejor en gran medida el tiempo necesario para entrenar arboles de decisión, sin embargo no garantiza el mismo rendimiento que Adaboost o XGBoost posee.