Estoy refrescando mis conocimientos de estadística, y estoy atascado en un problema que pide una comparación entre 2 estimadores (por desgracia, no recuerdo la fuente del problema, pero sé que su intención es mostrar que los estimadores insesgados no son necesariamente los mejores).
$\underline{Problem}$ :
Su colega desea estimar la probabilidad de éxito desconocida $p$ de una moneda de 2 caras (pero posiblemente injusta). Para ello, lanza la moneda y observa si sale cara ( $X_1 = 1$ ) o colas ( $X_1 = 0$ ). Si observa cara, procede a lanzar la moneda una vez más $k-1$ veces para un total de $k$ y anota el número total de caras obtenidas en el $k$ voltea $\left(\sum_{i=1}^k x_i \right)$ . Si observa cruz, no lanza más la moneda y se limita a anotar el valor de $X_1$
Defina
$$N = X_1I(X_1=0) + \left(1+\sum_{i=2}^k X_i \right)I(X_1 =1)$$ donde $I$ es la función indicadora. Compare el error cuadrático medio de dos estimadores candidatos de $p$ : (1) $X_1$ o (2) $\frac{N}{k}$ (es decir, la proporción de la muestra).
$\underline{Solution}$ :
Es relativamente sencillo ver que $X_1$ aunque insesgado, no es un buen estimador para $p$ porque dirá $p=0$ o $p=1$ . Sin embargo, al ser insesgado, el error cuadrático medio es simplemente la varianza de $X_1$ que es $p(1-p)$ ya que se trata de un ensayo Bernoulli.
Para calcular el error cuadrático medio del 2º estimador, debemos calcular su varianza y su sesgo. Afirmo que
\begin{eqnarray} \mathrm{var}\left( \frac{N}{k} \right) &=& \mathrm{var} \left( \mathbb{E}\left( \frac{N}{k} \big| X_1 \right) \right) + \mathbb{E} \left( \mathrm{var} \left( \frac{N}{k} \big| X_1 \right) \right) \\ &=& \frac{p^2}{k^2}(k-1)p(1-p) + \\& &\frac{p-p^2}{k^2} \left(1 + 2 (k-1)p + (k-1)p(1-p) + \left((k-1)p \right)^2 \right) \; \; \text{(*)} \end{eqnarray}
y que el valor esperado de $\frac{N}{k}$ es
$$\mathbb{E} \left( \frac{N}{k} \right) = \mathbb{E} \left( \mathbb{E} \left( \frac{N}{k} \big| X_1 \right) \right) = \frac{p}{k} \left(1+(k-1)p \right)$$ lo que significa $\frac{N}{k}$ es un estimador sesgado, siendo el sesgo
$$\mathrm{bias} \left( \frac{N}{k} \right) = \left[\frac{p}{k} (1+(k-1)p) - p \right] \; \; \text{(**)}$$
Por lo tanto, el error cuadrático medio de $\frac{N}{k}$ es la suma de (*) y (**) al cuadrado.
¿Le parece razonable? Habría esperado que el error cuadrático medio del 2º estimador $\left( \frac{N}{k} \right)$ sea menor que el error cuadrático medio del primer estimador ( $X_1$ ), mostrando así lo que creo que es el objetivo del ejercicio (es decir, a veces los estimadores sesgados pueden ser más eficientes). Sin embargo, basándome en lo que he hecho, esto no parece ser el caso, lo que me hace pensar que metí la pata en alguna parte (es decir, las cosas no parecen cancelarse, etc cuando trato de simplificar (*) + (**) $^2$ ). Agradecería cualquier orientación o idea.
$\textbf{Edit}$
He aquí cómo estoy calculando las piezas de (*) en caso de que alguien puede señalar en mi error
\begin{eqnarray} \mathrm{var}_{X_1} \left( \mathbb{E}_{\frac{N}{k}|X_1}\left( \frac{N}{k} \big| X_1 \right) \right) &=& \mathrm{var}_{X_1} \left(\frac{1}{k}\mathbb{E}_{N | X_1} \left(N | X_1 \right) \right) \nonumber \\ &=& \mathrm{var}_{X_1} \left( \frac{1}{k} \left( 0 \times (1-p) + \left(1+\sum_{i=2}^k x_i\right) \times p \right) \right) \nonumber \\ &=& \frac{1}{k^2}\mathrm{var}_{X_1} \left( p + p\sum_{i=2}^k x_i \right) \nonumber \\ &=& \frac{p^2}{k^2}\mathrm{var}_{X_1} \left(\sum_{i=2}^k x_i \right) \nonumber \\ &=& \frac{p^2}{k^2}(k-1)p(1-p) \end{eqnarray}
\begin{eqnarray} \mathbb{E}_{X_1} \left( \mathrm{var}_{\frac{N}{k}|X_1} \left( \frac{N}{k} \big| X_1 \right) \right) &=& \mathbb{E}_{X_1} \left( \frac{1}{k^2}\mathrm{var}_{N|X_1} \left( N | X_1 \right) \right) \nonumber \\ &=& \mathbb{E}_{X_1} \left( \frac{1}{k^2} \left( \mathbb{E}(N^2 | X_1) - \left( \mathbb{E}(N | X_1 \right)^2 \right) \right) \nonumber \\ &=& \mathbb{E}_{X_1} \left( \frac{1}{k^2} \left( p \left(1+\sum_{i=2}^k x_i \right)^2 - p^2 \left(1 + \sum_{i=2}^k x_i\right)^2 \right) \right) \nonumber \\ &=& \mathbb{E}_{X_1} \left( \frac{1}{k^2} \left( p-p^2 \right) \left(1+\sum_{i=2}^k x_i \right)^2 \right) \nonumber \\ &=& \frac{p-p^2}{k^2}\mathbb{E}_{X_1} \left(1+2\sum_{i=2}^k x_i + \left( \sum_{i=2}^k x_i \right)^2 \right) \\ &=& \frac{p-p^2}{k^2} \left(\mathbb{E}_{X_1}(1) + 2 \mathbb{E}_{X_1} \left(\sum_{i=2}^k x_i \right) + \mathbb{E}_{X_1}\left( \sum_{i=2}^k x_i \right)^2 \right) \\ &=& \frac{p-p^2}{k^2} \left(1 + 2 (k-1)p + \mathrm{var}\left(\sum_{i=2}^k x_i \right) + \left( \mathbb{E}\left(\sum_{i=2}^k x_i \right) \right)^2 \right) \\ &=& \frac{p-p^2}{k^2} \left(1 + 2 (k-1)p + (k-1)p(1-p) + \left((k-1)p \right)^2 \right) \end{eqnarray}