Soy nuevo en la regresión y tengo problemas para resolver la heteroscedasticidad en OLS. He hecho muchos deberes y pruebas antes de buscar su consejo. Comparto los antecedentes y lo que he hecho para resolver el problema. Espero que pueda compartir su opinión si mi enfoque es correcto.
Objetivos:
- Encontrar la relación (modelo) entre una variable explicativa (x) y una variable explicada (y) utilizando la regresión OLS.
- si se encuentra un modelo (relación), se estudiará su utilidad y precisión de predicción.
Conjunto de datos (transversal):
- Disponga de 4 conjuntos de datos, con un tamaño de muestra de 350 cada uno.
- Cada conjunto de datos se ha obtenido utilizando una intensidad de experimento diferente y esto ya se recoge en la variable explicativa de x.
- Debido a la heterogeneidad de los datos, no es posible agruparlos todos en un único conjunto de datos.
Requisito:
Un modelo común y estadísticamente aceptable para los 4 conjuntos de datos utilizando OLS
Pasos seguidos:
-
Análisis explicativo: Se encontró una relación no lineal
-
Como se pretende usar OLS, se hicieron 3 transformaciones de las variables para intentar tener linealidad: a) ln(x) ~ ln(y); b) ln(x) ~ y; c) x ~ ln(y). Nota: Mantener d) x ~ y como referencia
-
Hice la prueba de heteroscedasticidad utilizando la prueba de Breusch-Pagan (BP) en R para 2(a)-(d) para todos los conjuntos de datos en un intento de encontrar modelos válidos. En el mejor caso, es decir, el 2b), sólo 2 de los 4 conjuntos de datos pasaron la prueba de BP (valor p>0,05)
-
Como el objetivo es tener un modelo común para los 4 conjuntos de datos, se realiza otra transformación de variables utilizando la Escala de Transformación de Tukey para intentar tener homocedasticidad: a) ? ? {-2,-1,-0.5, 0.5, 1, 2} se utiliza para x/y/x e y para cada uno de los modelos en 2(a)-(d). Tenemos un total de 64 modelos (16 x 4) a considerar. X e Y se refieren a las transformadas x e y; b) Ahora tenemos 2 modelos que han pasado la prueba de BP para 3 de los 4 conjuntos de datos en el mejor de los casos; c) El que falló tiene un valor p <2,20E-16.
-
[bloqueo incapaz de encontrar un modelo válido que pase los 4 conjuntos de datos]
-
Se procede a tomar los dos modelos válidos en el paso 4 y se hace la prueba de inferencia: a) los valores p de la prueba t y de la prueba F son inferiores a 0,05 para los 4 conjuntos de datos; b) el R-cuadrado es superior a 0,9402 para los 4 conjuntos de datos.
-
Hice una validación cruzada y seleccioné el mejor modelo utilizando el menor error cuadrático medio frente a los dos modelos "válidos". Se ha realizado una transformación inversa en la escala original antes de realizar la selección, de modo que se comparen los datos de manzana a manzana. El porcentaje de error medio del mejor modelo es inferior al 10%.
-
Ahora se ha intentado utilizar el mejor modelo para la predicción: a) Seleccionó 20 valores aleatorios de x que no formaban parte del conjunto de datos; b) Predicción de y y comparación con la medición de y; c) el porcentaje medio de error es inferior al 8% y está dentro del porcentaje medio de error del modelo, es decir, por debajo del 10%.
El problema:
Con los pasos anteriores no consigo obtener un modelo que pase la prueba de heteroscedasticidad en los 4 conjuntos de datos. ¿He hecho algo mal o se puede hacer algo más en el paso 4?
Creemos que el tema de la especificación errónea ha sido debidamente atendido. No tengo intención de utilizar GLS porque necesito utilizar .OLS
He utilizado errores estándar robustos de heteroscedasticidad como un remedio de la heteroscedasticidad en el conjunto de datos que falló la prueba de BP por el Youtube a continuación. Consulte https://www.youtube.com/watch?v=hFoDDwTF4KY
El error estándar aumentó y el valor t disminuyó para Y en el conjunto de datos corregidos por HC3. Pero el modelo Y= a + b X sigue siendo el mismo.
¿Es suficiente mostrar que el valor p de la prueba t y de la prueba F para el conjunto de datos corregido sigue siendo inferior a 0,05, por lo que se puede utilizar el mismo Y= a+bX aunque no haya superado la prueba BP?
Espero que puedas compartir tus pensamientos ya que soy nuevo en la regresión.
Utilizando muchos libros de referencia para aprender como
- Introducción a la econometría por Wooldridge
- Econometría básica por Gujerati
- Análisis de regresión por ejemplo de Chatterjee
Original:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.612116 0.009006 -68.76 <2e-16 ***
Y 5.955984 0.039653 145.65 <2e-16 ***
---
Residual standard error: 0.04138 on 348 degrees of freedom
Multiple R-squared: 0.9832, Adjusted R-squared: 0.9831
F-statistic: 2.092e+04 on 1 and 348 DF, p-value: < 2.2e-16
Errores estándar robustos de heteroscedasticidad corregidos mediante HC3:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.61212 0.01767 -33.77 <2e-16 ***
Y 5.95598 0.08432 69.12 <2e-16 ***
---
Residual standard error: 0.04138 on 348 degrees of freedom
Multiple R-squared: 0.9832, Adjusted R-squared: 0.9831
F-statistic: 4640 on 1 and 348 DF, p-value: < 2.2e-16
Note: Heteroscedasticity-consistent standard errors using adjustment hc3
Gracias