3 votos

¿Qué hay de malo en esta derivación del GLS de un modelo lineal?

Pregunta:

Encuentre el estimador GLS $\hat{\beta}$ para el modelo lineal

$$Y=\beta X+\epsilon$$ donde $\mathbb{E}\epsilon=0$ y $\text{Cov}(\epsilon)=\sigma^2\Sigma$ , donde $\Sigma$ es positiva definida.

Según la Wikipedia, la respuesta correcta es $$\hat{\beta}=(X^T\Sigma^{-1}X)^{-1}X^T\Sigma^{-1}Y,$$ pero ¿qué hay de malo en esta derivación?

Establecer $B=Y-X\beta$ entonces queremos minimizar $f(B)=B^T\Sigma^{-1}B$ . Ahora $\nabla f=2\Sigma^{-1}B$ (Me saltaré el trabajo aquí, pero puedo insertarlo si esto puede ser la fuente de error), así que tenemos $$\nabla f=0\iff B=0\iff Y=X\beta\iff X^TY=(X^TX)\beta\iff \beta=(X^TX)^{-1}X^TY$$

Esto no parece correcto, ya que es una simplificación importante del resultado anterior (es sólo el estimador OLS). ¿Dónde me he equivocado?

Nota: Si no cancelo el $\Sigma^{-1}$ en $\Sigma^{-1}B=0$ y realizar el mismo trabajo obtengo la respuesta correcta, pero no veo por qué no puedo anular esto.

1voto

alexs77 Puntos 36

El vector $B$ que puede considerarse como un vector de residuos, tiene expectativa 0. De hecho, la cruz de $B$ con cualquier columna de la matriz de diseño $X$ es 0 porque la regresión es una proyección. Pero como señala @whuber, decir $B=0$ se interpreta probablemente como $B^T = [0, 0, \ldots, 0]$ como $n \times 1$ vectorial. Esto significa que tiene un ajuste perfecto. En este caso no importa lo que $\Sigma$ es, y por eso es capaz de demostrar que OLS es "óptimo" (cualquier ponderación arbitraria también sería "óptima" en este caso, por lo que la solución óptima de WLS no es única).

La prueba de que el WLS es el mejor estimador lineal insesgado es por contradicción. No optimizamos directamente la función de pérdida. Su paso $\nabla f \implies B=0$ necesita ser considerado seriamente. Si $f = B^T \Sigma^{-1} B$ puede demostrar con un lema o referencia que realmente $\nabla f = 2 \Sigma{-1} B $ ? Su propuesta $f$ es un $p \times p$ matriz. Si se deriva con respecto a un vector, ¿no debería ser una $p \times p \times p$ ¿múltiple? Es demasiado complicado construir el WLS por optimización cuando la respuesta es bastante evidente desde el diseño.

Seber & Lee es una buena referencia.

1voto

Paulius Puntos 369

Estás escribiendo tu función objetivo como una función del error, no del parámetro $\beta$ así que por eso se comporta de forma extraña.

Usaré $b$ como valor de parámetro candidato y $e_b$ como el vector residual correspondiente. La pérdida es entonces $$ f(e_b) = e_b^T\Sigma^{-1}e_b = (y - Xb)^T\Sigma^{-1}(y - Xb). $$ Diferenciación con respecto a la $e_b$ efectivamente obtenemos $$ \nabla_e f = 2 \Sigma^{-1} e_b $$ pero la cuestión es que $e_b$ no es libre de variar sobre todo el $\mathbb R^n$ . Esto significa que en general no podemos resolver $\nabla_e f = \mathbf 0$ .

Si en cambio diferenciamos $f(e_b)$ por ejemplo $b$ obtenemos $$ \nabla_b f = -2 y^T\Sigma^{-1}X + 2 X^T\Sigma^{-1}Xb $$ y ahora $b$ es libre de variar sobre todo el $\mathbb R^p$ por lo que se puede resolver para cero (de forma única, cuando $X$ es el rango de la columna completa)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X