Estimación de Pseudo Odds Ratios ajustados mediante bootstrap e índices lifts en un modelo no paramétrico de machine learning para clasificación

Esta investigación se centra en el desarrollo de un algoritmo para estimar los Pseudo Odds Ratios (ORs) ajustados en modelos no paramétricos de clasificación supervisada de Machine Learning. Se empleó el método bootstrap y los índices lift. En el proceso se diseñaron 12 etapas, comenzando con la opt...

Full description

Autores:
Gómez Vasquez, Marilyn
Tipo de recurso:
https://purl.org/coar/resource_type/c_7a1f
Fecha de publicación:
2024
Institución:
Universidad El Bosque
Repositorio:
Repositorio U. El Bosque
Idioma:
spa
OAI Identifier:
oai:repositorio.unbosque.edu.co:20.500.12495/13596
Acceso en línea:
https://hdl.handle.net/20.500.12495/13596
Palabra clave:
Odds ratios
Bootstrap
Lift
Modelos no paramétricos
Clasificación supervisada
Medidad de asociación
Machine learning interpretable
510
Odds ratios
Bootstrap
Lift
Non-parametric models
Supervised classification
Measures of association
Interpretable machine learning
Rights
License
Atribución-NoComercial-CompartirIgual 4.0 Internacional
Description
Summary:Esta investigación se centra en el desarrollo de un algoritmo para estimar los Pseudo Odds Ratios (ORs) ajustados en modelos no paramétricos de clasificación supervisada de Machine Learning. Se empleó el método bootstrap y los índices lift. En el proceso se diseñaron 12 etapas, comenzando con la optimización de parámetros para cada modelo no paramétrico (Decision Tree Classifier (CART), Support Vector Classifier (SVC), Naive Bayes (NB)), evaluados con métricas como accuracy, specificity y recall. Por ejemplo, los valores de accuracy oscilaron entre 0.75 y 0.79. Las estimaciones se basaron en las probabilidades de las variables X y Y junto con los índices lift. Los resultados mostraron que el modelo NB ofreció el mejor rendimiento en cuanto a distribuciones y correlaciones, evidenciando una tendencia lineal en los gráficos de dispersión. Esta linealidad facilitó la transformación de los ORs para cada modelo, utilizando los Odds Ratios del modelo regresión logístico como variable dependiente y los OR_s como variable independiente, lo que permitió obtener estimaciones consistentes, como X1=0.38, tanto para el modelo paramétrico como para los no paramétricos. Las interpretaciones se validaron con intervalos de confianza al 95%, construidos a partir de muestras bootstrap, las cuales también permitieron el cálculo de diversos resúmenes estadísticos. Por ejemplo, para la variable X1, se obtuvieron intervalos de confianza de [0.266, 0.541] en regresión logística y [0.369, 0.411] en NB.