Teorema: Dejemos que $Y=X\beta+\varepsilon$ donde $$Y\in\mathcal M_{n\times 1}(\mathbb R),$$ $$X\in \mathcal M_{n\times p}(\mathbb R),$$ $$\beta\in\mathcal M_{n\times 1}(\mathbb R ),$$ y $$\varepsilon\in\mathcal M_{n\times 1}(\mathbb R ).$$
Suponemos que $X$ tiene rango completo $p$ y que $$\mathbb E[\varepsilon]=0\quad\text{and}\quad \text{Var}(\varepsilon)=\sigma ^2I.$$ Entonces, el estimador de mínimos cuadrados (es decir $\hat\beta=(X^TX)^{-1}X^Ty$ ) es el mejor estimador insesgado de $\beta$ es decir, para cualquier estimador lineal insesgado $\tilde\beta$ de $\beta$ , se sostiene que $$\text{Var}(\tilde\beta)-\text{Var}(\hat\beta)\geq 0.$$
Prueba
Dejemos que $\tilde\beta$ un estimador lineal insesgado, es decir $$\tilde\beta=AY\ \ \text{for some }A_{n\times p}\quad\text{and}\quad\mathbb E[\tilde\beta]=\beta\text{ for all }\beta\in\mathbb R ^p.$$
Preguntas :
1) Por qué $\mathbb E[\tilde\beta]=\beta$ para todos $\beta$ No entiendo muy bien este punto. Para mí $\beta$ es fijo, por lo que $\mathbb E[\tilde\beta]=\beta$ para todos $\beta$ no tiene realmente sentido.
2) En realidad, ¿cuál es la diferencia entre el estimador de mínimos cuadrados y el de máxima verosimilitud? Ambos son $\hat\beta=(X^TX)^{-1}X^Ty$ Así que no veo realmente (si son lo mismo), por qué dar dos nombres diferentes.
0 votos
Se supone que el parámetro $\beta$ est un observable. Por lo tanto, cualquier condición que implique $\beta$ debe cumplirse para cualquier valor que pueda tomar el parámetro. Por ello, una condición como $CX\beta=\beta$ implica $CX=I$ .