7 votos

¿Podemos calcular el error estándar de predicción basándonos sólo en los resultados de la regresión lineal simple?

El error estándar de predicción en la regresión lineal simple es $\hat\sigma\sqrt{1/n+(x_j-\bar{x})^2/\Sigma{(x_i-\bar{x})^2}}$ .

Mi pregunta es calcular el error estándar de predicción para $pop=1029$ sólo en base al siguiente resultado de la regresión. Puedo obtener todo excepto $\bar{x}$ . Y también sé cómo calcular el error estándar aproximado de la predicción a partir de los errores estándar del intercepto y del coeficiente de $pop$ ignorando su correlación.

Stata regression output

1 votos

¿Cómo cambiaría el resultado de la regresión si, por ejemplo, se añadiera $10^6$ a cada pop valor y añadir $-0.0116584\times 10^6$ a cada fuel ¿valor? Intuitivamente, eso desplaza los datos lejos de pop=1029 sin alterar la línea de regresión y, por tanto, debería dar lugar a un intervalo de predicción mucho más amplio. Eso significa que puede centrar su investigación en los elementos de la salida que cambian. (Incluso si no tienes los datos reales, puedes inventarte algunos y ejecutar ambas regresiones para ver qué ocurre).

1 votos

Muchas gracias. Sólo cambia el error estándar del intercepto (por tanto, t, valor p e IC). Esto me inspiró para averiguar que $Var(\hat{\beta}_0)=\sigma^2(1/n+\bar{x}^2/SXX)$ , entonces puedo conseguir $\bar{x}$ para calcular el error estándar de predicción.

1 votos

El error estándar de un valor previsto no es lo que has dicho. Lo que tienes ahí es el error estándar para la media en un determinado $x$ .

2voto

Randel Puntos 3040

La cuestión es calcular el siguiente estadístico a partir del resultado de la regresión anterior:

$$s.e.(\hat\mu|x_j)=\hat\sigma\sqrt{1/n+(x_j-\bar{x})^2/\Sigma{(x_i-\bar{x})^2}}.$$

La respuesta está inspirada en @whuber:

  • Obtenga $\hat\sigma$ de $\hat\sigma^2=SS_{Residual}/(n-p-1)$ , donde $p=1$ ;
  • $n$ y $x_j$ son conocidos;
  • obtener $\bar{x}$ de $\hat{Var}(_{cons})=\hat^2(1/n+\bar{x}^2/\Sigma{(x_i-\bar{x})^2})$ ;
  • $\Sigma{(x_i-\bar{x})^2}=SS_{Model}/\hat{\beta}_{pop}^2$ .

1voto

TDT Puntos 21

Para simplificar, trabajamos con el siguiente modelo: $$y=\beta_0 + \beta_1x + \varepsilon,$$ donde $\varepsilon\sim N(0, \sigma^2)$ .

Supongamos ahora que para $x=5$ nos gustaría predecir $E(y|x=5) = \beta_0 + 5\beta_1$ , denotado por $pre$ .

Observamos que $pre$ es sólo un valor si sabemos que $\beta_0$ y $\beta_1$ . Sin embargo, son desconocidos y cada uno de ellos tiene su propia distribución muestral (donde la sd de esta distribución se llama el se). Por lo tanto, el error estándar asociado a $pre$ se calcula como: $$Var(pre) = Var(\beta_0 + 5\beta_1) = Var(\beta_0) + 10 Cov(\beta_0, \beta_1) + 25Var(\beta_1).$$ Ahora puedes ver que no puedes calcular esta varianza si no conoces la covarianza $Cov(\beta_0, \beta_1)$ .

0voto

cipher Puntos 150

Véase la sección 6-4a de Wooldridge (2020), Introducción a la econometría: Un enfoque moderno , 7ed, Cengage.

Varianza del error de predicción

No es $\sigma^2 [ 1/n + (x_j-\bar{x})^2 / \sum_i (x_i - \bar{x})^2 ]$ .

Para la expresión correcta, permítanme utilizar las notaciones vectoriales. El modelo es $y=x\beta + u$ , donde $x=(1,pop)$ . Sea $x_0 = (1,1029)$ . El valor a predecir ( $y_0$ ) aún no está etiquetado. El predictor es $\hat\theta = x_0 \hat\beta$ , donde $\hat\beta$ es el estimador OLS, y la etiqueta a predecir es $x_0 \beta + u_0$ . Por lo tanto, el error de predicción es $y_0 - \hat\theta = u_0 - x_0 (\hat\beta-\beta)$ .

Como $\hat\beta$ es una función de la muestra y $u_0$ (fuera de la muestra) se supone independiente de la muestra, la varianza del error de predicción es $\sigma^2 + x_0 V(\hat\beta) x_0'$ , donde $'$ significa transposición. Como $V(\hat\beta) = \sigma^2 (X'X)^{-1}$ , donde $X$ es la matriz de características (incluyendo el término constante de la primera columna), la varianza del error de predicción es $\sigma^2 [ 1+ x_0 (X'X)^{-1} x_0' ]$ por lo que el error estándar es $$\sigma \sqrt{1 + x_0 (X'X)^{-1} x_0'}.$$

Cálculo del se(error de predicción)

Si cambiamos la variable $pop$ a $pop-1029$ entonces $\hat\theta$ se presenta como la estimación del intercepto:

/* Stata */
gen pop2 = pop - 1029
reg fuel pop2

Se ve que el modelo reparametrizado $fuel = \theta + \beta_1 (pop-1029) + u$ da $\theta = \beta_0 + 1029 \beta_1$ por lo que el estimador de intercepción $\hat\theta$ es su predictor.

Sin embargo, el error estándar reportado es $se(\hat\theta) = \hat\sigma \sqrt{x_0 (X'X)^{-1} x_0'}$ , no el deseado $\hat\sigma \sqrt{1+x_0 (X'X)^{-1} x_0'}$ . Para la correcta, basta con calcular $\sqrt{\hat\sigma^2 + se(\hat\theta)^2}$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X