Estimación de Pseudo Odds Ratios ajustados mediante bootstrap e índices lifts en un modelo no paramétrico de machine learning para clasificación
Esta investigación se centra en el desarrollo de un algoritmo para estimar los Pseudo Odds Ratios (ORs) ajustados en modelos no paramétricos de clasificación supervisada de Machine Learning. Se empleó el método bootstrap y los índices lift. En el proceso se diseñaron 12 etapas, comenzando con la opt...
- Autores:
-
Gómez Vasquez, Marilyn
- Tipo de recurso:
- https://purl.org/coar/resource_type/c_7a1f
- Fecha de publicación:
- 2024
- Institución:
- Universidad El Bosque
- Repositorio:
- Repositorio U. El Bosque
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unbosque.edu.co:20.500.12495/13596
- Acceso en línea:
- https://hdl.handle.net/20.500.12495/13596
- Palabra clave:
- Odds ratios
Bootstrap
Lift
Modelos no paramétricos
Clasificación supervisada
Medidad de asociación
Machine learning interpretable
510
Odds ratios
Bootstrap
Lift
Non-parametric models
Supervised classification
Measures of association
Interpretable machine learning
- Rights
- License
- Atribución-NoComercial-CompartirIgual 4.0 Internacional
Summary: | Esta investigación se centra en el desarrollo de un algoritmo para estimar los Pseudo Odds Ratios (ORs) ajustados en modelos no paramétricos de clasificación supervisada de Machine Learning. Se empleó el método bootstrap y los índices lift. En el proceso se diseñaron 12 etapas, comenzando con la optimización de parámetros para cada modelo no paramétrico (Decision Tree Classifier (CART), Support Vector Classifier (SVC), Naive Bayes (NB)), evaluados con métricas como accuracy, specificity y recall. Por ejemplo, los valores de accuracy oscilaron entre 0.75 y 0.79. Las estimaciones se basaron en las probabilidades de las variables X y Y junto con los índices lift. Los resultados mostraron que el modelo NB ofreció el mejor rendimiento en cuanto a distribuciones y correlaciones, evidenciando una tendencia lineal en los gráficos de dispersión. Esta linealidad facilitó la transformación de los ORs para cada modelo, utilizando los Odds Ratios del modelo regresión logístico como variable dependiente y los OR_s como variable independiente, lo que permitió obtener estimaciones consistentes, como X1=0.38, tanto para el modelo paramétrico como para los no paramétricos. Las interpretaciones se validaron con intervalos de confianza al 95%, construidos a partir de muestras bootstrap, las cuales también permitieron el cálculo de diversos resúmenes estadísticos. Por ejemplo, para la variable X1, se obtuvieron intervalos de confianza de [0.266, 0.541] en regresión logística y [0.369, 0.411] en NB. |
---|