Comparación de la Regresión GINI con la Regresión de Mínimos Cuadrados Ordinarios y otros modelos de regresión lineal robustos

El método de los Mínimos Cuadrados Ordinarios - OLS - es uno de los más usados para estimar la relación entre una variable dependiente (Y) e independientes (X). El modelo de regresión está dado por la relación Y=Xβ+ε. Sin embargo, OLS es sensible a observaciones atípicas, las cuales podrían no ser d...

Full description

Autores:
Carmona Flórez, Gloria Patricia
Tipo de recurso:
Fecha de publicación:
2015
Institución:
Universidad Nacional de Colombia
Repositorio:
Universidad Nacional de Colombia
Idioma:
spa
OAI Identifier:
oai:repositorio.unal.edu.co:unal/54325
Acceso en línea:
https://repositorio.unal.edu.co/handle/unal/54325
http://bdigital.unal.edu.co/49221/
Palabra clave:
51 Matemáticas / Mathematics
Mínimos Cuadrados Ordinarios
Regresión Gini
Modelos de Regresión Robustos
Eficiencia
Robustez
Datos atípicos
Gini Regression
Ordinary Least Square
Robustness Regression
Efficiency
Atypical
Rights
openAccess
License
Atribución-NoComercial 4.0 Internacional
Description
Summary:El método de los Mínimos Cuadrados Ordinarios - OLS - es uno de los más usados para estimar la relación entre una variable dependiente (Y) e independientes (X). El modelo de regresión está dado por la relación Y=Xβ+ε. Sin embargo, OLS es sensible a observaciones atípicas, las cuales podrían no ser de interés para el investigador, por lo cual es recomendable usar métodos robustos que superen las limitaciones del método OLS. La regresión de Gini es uno de los métodos que podría tener cierto grado de robustez según la literatura (Olkin y Yitzhaki, 1992) debido a la forma matemática como está planteada. En este trabajo se compara la regresión de Gini (usando el enfoque no paramétrico de promedios ponderados de pendientes, en lugar de usar el enfoque parámetrico) con la regresión OLS y otros métodos de regresión robustos, del tipo L (LAV, combinaciones lineales de estadísticos de orden), del tipo M (M de Huber, basado en el concepto de máxima verosimilitud) y del tipo MM (basado en la minimización de un estimador M). La comparación de los métodos se realiza vía simulación bajo diferentes escenarios: Uno de normalidad de los errores (con µ=0 y σ=1) y tres escenarios de normalidad contaminada con un dato atípico, en los cuales se aumenta progresivamente la magnitud de la observación atípica (en $4 σ, 8 σ , 16 σ). Además, se investiga el efecto del tamaño muestral (n1=10, n2=30 y n3=30 =100). Como un indicador de la robustez de los métodos para estimar el coeficiente de regresión β=(β0 , β1) en presencia de datos atípicos, se usa el Error Cuadrático Medio (MSE), el coeficiente de determinación R^2 y el estadístico muestral ^2 dado por: (β ̂-β)'1/σ^2 (X'X)(β ̂-β)~ ^2 Si el método es sensible a datos atípicos, entonces se espera que el estadístico muestral ^2 se aleje de su valor esperado que es 2. Del mismo modo se espera que el MSE sea mayor en los métodos más robustos y consecuentemente el〖 R〗^2 sea menor. Los resultados encontrados vía simulación muestran mediante el análisis del MSE, el 〖 R〗^2 y el ^2 que la regresión de Gini tiene un mayor grado de robustez en comparación con la regresión OLS al estimar los coeficientes de regresión ante la presencia de datos atípicos, pero su robustez es menor que la de los métodos de estimación robustos LAV, M de Huber y MM. El método de los Mínimos Cuadrados Ordinarios - OLS - es uno de los más usados para estimar la relación entre una variable dependiente (Y) e independientes (X). El modelo de regresión está dado por la relación Y=Xβ+ε. Sin embargo, OLS es sensible a observaciones atípicas, las cuales podrían no ser de interés para el investigador, por lo cual es recomendable usar métodos robustos que superen las limitaciones del método OLS. La regresión de Gini es uno de los métodos que podría tener cierto grado de robustez según la literatura (Olkin y Yitzhaki, 1992) debido a la forma matemática como está planteada. En este trabajo se compara la regresión de Gini (usando el enfoque no paramétrico de promedios ponderados de pendientes, en lugar de usar el enfoque parámetrico) con la regresión OLS y otros métodos de regresión robustos, del tipo L (LAV, combinaciones lineales de estadísticos de orden), del tipo M (M de Huber, basado en el concepto de máxima verosimilitud) y del tipo MM (basado en la minimización de un estimador M). La comparación de los métodos se realiza vía simulación bajo diferentes escenarios: Uno de normalidad de los errores (con µ=0 y σ=1) y tres escenarios de normalidad contaminada con un dato atípico, en los cuales se aumenta progresivamente la magnitud de la observación atípica (en $4 σ, 8 σ , 16 σ). Además, se investiga el efecto del tamaño muestral (n1=10, n2=30 y n3=30 =100). Como un indicador de la robustez de los métodos para estimar el coeficiente de regresión β=(β0 , β1) en presencia de datos atípicos, se usa el Error Cuadrático Medio (MSE), el coeficiente de determinación R^2 y el estadístico muestral ^2 dado por: (β ̂-β)'1/σ^2 (X'X)(β ̂-β)~ ^2 Si el método es sensible a datos atípicos, entonces se espera que el estadístico muestral ^2 se aleje de su valor esperado que es 2. Del mismo modo se espera que el MSE sea mayor en los métodos más robustos y consecuentemente el〖 R〗^2 sea menor. Los resultados encontrados vía simulación muestran mediante el análisis del MSE, el 〖 R〗^2 y el ^2 que la regresión de Gini tiene un mayor grado de robustez en comparación con la regresión OLS al estimar los coeficientes de regresión ante la presencia de datos atípicos, pero su robustez es menor que la de los métodos de estimación robustos LAV, M de Huber y MM.