4 votos

Relación entre las diferentes fórmulas de error estándar

Estoy leyendo "Introductory Econometrics - A modern approach" de Wooldridge y tengo una pregunta sobre la fórmula del error estándar.

El libro de texto ofrece las siguientes ecuaciones como estimador del error estándar en el caso de la regresión lineal simple donde $y_i = \beta_0 + \beta_1 x$ :

$$SE(\hat\beta_1) = \frac{\hat \sigma }{\sqrt {SST_x}} $$

donde:

$$\hat \sigma = \sqrt \frac{SSR}{n-2}$$

$$SST_x = \sum_{i=1}^n (x_i - \bar x)^2$$

Utilizando las fórmulas anteriores pude derivar la estimación correcta del error estándar tal y como informan los paquetes de estadísticas, sin embargo me encontré con otra fórmula, que es:

$$SE = \frac{\sigma}{\sqrt n}$$

Por favor, alguien puede explicar la relación entre ambos, ya que no he podido encontrar ningún material relacionado con su dependencia, sólo explicaciones separadas.

2voto

jldugger Puntos 7490

Aparte del sombrero sobre el $\sigma$ en primera instancia, son ejemplos de una fórmula común. En ambos casos hay una raíz cuadrada de una fracción; el numerador es una varianza $\sigma^2$ o su valor estimado $\hat \sigma^2;$ y el denominador -como resulta- puede entenderse como la longitud al cuadrado de un vector de valores explicativos en el tipo más simple de modelo de regresión. Compare las igualdades rojas en las dos ecuaciones resaltadas a continuación.


Considere el modelo $$y_i = \beta x_i + \varepsilon_i\tag{1}$$ donde $\beta$ debe estimarse a partir de los datos $(x_i,y_i)$ y el $\varepsilon_i$ se suponen variables aleatorias de media cero no correlacionadas, todas ellas de varianza $\sigma^2$ (que no se conoce). La estimación por mínimos cuadrados ordinarios es

$$\hat \beta = \frac{\sum_i x_i y_i}{\sum_i x_i x_i} = \frac{\sum_i x_i y_i}{|x|^2}$$

(utilizando una notación vectorial simplificada para la suma de los cuadrados del $x_i$ en el denominador, que podemos interpretar como la longitud euclidiana al cuadrado del vector $(x_i)$ ). Porque

$$\operatorname{Var}(y_i) = \operatorname{Var}(\beta x_i + \varepsilon_i) = \operatorname{Var}(\varepsilon_i) = \sigma^2$$

y las covarianzas de los distintos $y_i$ y $y_j$ son cero, calcula que

$$\operatorname{Var}(\hat\beta) = \operatorname{Var}\left(\frac{\sum_i x_i y_i}{\sum_i x_i x_i}\right) = \sum_i \left(\frac{x_i}{|x|^2}\right)^2 \sigma^2 = \frac{|x|^2}{\left(|x|^2\right)^2}\sigma^2 = \frac{\sigma^2}{|x|^2}.\tag{2}$$

En el caso especial donde $x_i=1$ para todos $i,$ $|x|^2 = \sum_i 1^2 = n$ y el modelo es

$$y_i = \beta + \varepsilon_i$$

con

$$\hat \beta = \frac{\sum_i (1)y_i}{|x|^2} = \frac{\sum_i y_i}{n} = \bar y,$$

de donde

$$\operatorname{Var}(\bar y) = \color{red}{\operatorname{Var}(\hat\beta) = \frac{\sigma^2}{|x|^2}} = \frac{\sigma^2}{n}.$$

Tomando las raíces cuadradas se obtiene la segunda fórmula de la pregunta. Tenga en cuenta el origen del denominador $n:$ es la longitud al cuadrado del vector de variables explicativas $(x_i = 1).$


La primera fórmula surge ajustando el modelo

$$y_i = \alpha + \beta x_i + \varepsilon_i = \alpha z_i + \beta x_i + \varepsilon_i$$

(donde $z_i=1$ para todos $i$ ) en dos pasos. En el primer paso, ambos $y$ y $x$ son aptos para $z$ utilizando el modelo simple $(1)$ y luego se sustituyen por sus residuos. (Véase https://stats.stackexchange.com/a/46508/919 y https://stats.stackexchange.com/a/113207/919 para la justificación y las explicaciones de este paso fundamental, que se llama "controlar" o "sacar el efecto de" la variable $z.$ )

En otras palabras, $y_i$ se sustituye por $y_{\cdot i}=y_i - \bar y$ y $x_i$ se sustituye por $x_{\cdot i}=x_i - \bar x.$ Porque esto elimina todos los efectos discernibles de $z,$ $\alpha$ ya no es necesario y nos queda ajustar el modelo

$$y_{\cdot i} = y_i - \bar y = \beta (x_i - \bar x) + \varepsilon_i =\beta x_{\cdot i} + \varepsilon_i.$$

Esto también es en forma de modelo $(1).$ Fórmula $(2)$ declara

$$\color{red}{\operatorname{Var}(\hat \beta) = \frac{\sigma^2}{|x_\cdot|^2}} = \frac{\sigma^2}{\sum_i \left(x_i - \bar x\right)^2}.$$

Tomando las raíces cuadradas se obtiene la primera fórmula de la pregunta, excepto que aquí estamos usando $\sigma$ en lugar de $\hat \sigma.$

Esto nos lleva a la última cuestión no resuelta: cuando se sabe (o se asume el valor de) $\sigma,$ no queda nada por hacer: tenemos nuestros errores estándar de estimación. Pero cuando no se sabe $\sigma,$ lo único que se puede hacer (salvo una regresión infinita en la que se intente estimar el error estándar de $\hat \sigma$ y así sucesivamente) es reemplazar la ocurrencia de $\sigma^2$ en la fórmula $(2)$ por su estimación $\hat\sigma^2.$

1voto

EdM Puntos 5716

Cualquier estadística, una "cantidad calculada a partir de los valores de una muestra" puede tener un error estándar. El error estándar de una estadística es "la desviación estándar de su distribución muestral o una estimación de dicha desviación estándar" Es decir, si se repite el mismo experimento un gran número de veces, el error estándar proporciona una medida de la reproducibilidad del valor de la estadística calculada.

La última fórmula que escribiste, $SE = \frac{\sigma}{\sqrt n}$ es estrictamente el error estándar de la media (SEM) para muestras de tamaño $n$ de un variable única que tiene una verdadera desviación estándar $\sigma$ de sus valores en la población de la que se hace el muestreo. Lo más típico es tener una estimación $s$ de la desviación estándar basada en su muestra,** y calcule $SEM=\frac{s}{\sqrt n}$ . (Yo prefiero usar $SEM$ para los errores estándar de los valores medios de las variables individuales, y reserva $SE$ para los errores estándar de otras estadísticas).

En un regresión lineal simple ya que en su primera ecuación tiene dos variables de interés, cuyos valores observados conjuntamente proporcionan el estadístico de la pendiente estimada, $\hat \beta_1$ en su nomenclatura. Puede escribir esta estimación basada en la muestra como proporcional a la relación de los errores estándar de las medias de los valores y y x con la constante de proporcionalidad igual a su coeficiente de correlación muestral.

Con respecto al error estándar de la estimación de la pendiente, observe que podría optar por escribir $\sqrt {SST_x}$ como $\sqrt n SEM_x$ (donde $SEM_x$ es el error estándar de la media del $x$ valores). Entonces podrías escribir:

$$SE(\hat\beta_1) = \frac{\sqrt {SSR}}{\sqrt {n (n-2)} SEM_x} $$

que muestra que (a SSR constante, suma de cuadrados de los residuos) el error estándar de su estimación de la pendiente es menor si la distribución de $x$ valores, representados por $SEM_x$ es más amplia. (Por eso en el diseño experimental puede ser útil disponer de un amplio rango de valores para la variable independiente $x$ .) Sin embargo, aparte de esto, no existe una dependencia general simple entre el error estándar de la estimación de la pendiente en la regresión lineal simple y los errores estándar de la $x$ o $y$ por separado. Lo que importa es la relación lineal entre $y$ y $x$ y el éxito de esa relación que conduce a residuos pequeños, representados por $SSR$ .


*A veces hay que leer con atención para deducir si un autor está describiendo un valor poblacional real o una estimación basada en una muestra.

**Las estimaciones basadas en muestras se distinguen a menudo por un símbolo de "sombrero", como $\hat \sigma$ pero $s$ se utiliza desde hace tiempo para representar una desviación estándar basada en la muestra para los valores de una sola variable.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X