El ejemplo de Stein muestra que la estimación de máxima verosimilitud de $n$ variables normalmente distribuidas con medias $\mu_1,\ldots,\mu_n$ y desviaciones $1$ es inadmisible (bajo una función de pérdida cuadrada) si $n\ge 3$ . Para una prueba clara, véase el primer capítulo de Large-Scale Inference: Métodos empíricos de Bayes para la estimación, comprobación y predicción por Bradley Effron.
Esto me sorprendió mucho al principio, pero hay cierta intuición detrás de por qué uno podría esperar que la estimación estándar sea inadmisible (sobre todo, si $x \sim \mathcal N(\mu,1)$ entonces $\mathbb{E}\|x\|^2\approx \|\mu\|^2+n$ como se indica en el documento original de Stein, cuyo enlace figura más abajo).
Mi pregunta es más bien: ¿Qué propiedad de $n$ -(para $n\ge 3$ ) hace $\mathbb{R}^2$ falta que facilita el ejemplo de Stein? Las posibles respuestas podrían ser sobre la curvatura del $n$ -esfera, o algo completamente diferente.
En otras palabras, ¿por qué es admisible la MLE en $\mathbb{R}^2$ ?
Editar 1: En respuesta a la preocupación de @mpiktas sobre el 1,31 que sigue al 1,30:
$$E_\mu\left(\|z-\hat{\mu}\|^2\right)=E_\mu\left(S\left(\frac{N-2}{S}\right)^2\right)=E_\mu\left(\frac{(N-2)^2}{S}\right).$$
$$\hat{\mu_i} = \left(1-\frac{N-2}{S}\right)z_i$$ así que $$E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=E_\mu\left( 1-\frac{N-2}{S}+2\frac{z_i^2}{S^2}\right).$$ Por lo tanto, tenemos:
$$2\sum_{i=1}^N E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=2N-2E_\mu\left(\frac{N(N-2)}{S}\right)+4E_\mu\left(\frac{(N-2)}{S}\right)\\=2N-E_\mu\frac{2(N-2)^2}{S}.$$
Edición 2 : En este documento Stein demuestra que la MLE es admisible para $N=2$ .
0 votos
No estoy familiarizado con esto, pero he leído el pdf, y algunas cosas son bastante extrañas. En primer lugar, observamos una $N$ -y queremos hacer una inferencia sobre $N$ parámetros, lo cual es un poco optimista. En segundo lugar, la estimación MLE es simplemente la propia observación, no es de extrañar que no tenga las propiedades requeridas. Y tercero, la ecuación 1.31 no se deduce de la 1.30. De hecho, obtengo $E_\mu(N-2)^2/S+2E_\mu(N-2)/S-N$ que no es $N-E_\mu((N-2))^2/S$ . Y en cuarto lugar el último término de la última expresión es positivo para $N=1$ también por lo que la última declaración después de la ecuación 1.31 en el libro es ...
0 votos
... no es estrictamente cierto. Probablemente me estoy perdiendo algo trivial, pero estaría bien que añadieras algo más de contexto a la pregunta, ya que parece que importa mucho.
0 votos
Es probablemente el mismo lugar estrecho de entender que OLS es sólo un mejor lineal imparcial (BLUE), y existen mejores ejemplos sesgados o no lineales como el estimador James-Stein o el estimador LASSO que minimiza aún más el MSE.
0 votos
@Har, gracias, pensé que me faltaba algo obvio, se me pasó el término en diferenciar. Todavía esto deja mis otros 3 puntos.
0 votos
@Har, creo que la nota a pie de página de la 5ª página puede dar alguna pista. Según la misma la estimación MLE puede ser mejorada en cualquier lugar (sea lo que sea), y que este ejemplo específico fue desarrollado posteriormente. Así que parece que no hay ningún misterio con respecto a la dimensión, es sólo este ejemplo específico. Probablemente es posible pensar en otro estimador que sea mejor que MLE en la dimensión 2.
0 votos
@mpiktas 1) Sí, la configuración es puramente teórica. Pero sigue siendo muy importante (por ejemplo, podemos dejar que las variables sean medias de i.i.ds). 2) Sí, aunque no sé a qué te refieres con las propiedades requeridas. 3) Véase lo anterior. 4) Cierto, pero el valor esperado de $1/S$ no está definido para $N=1$ . (la distribución chi cuadrada inversa no tiene una media para $N=1$ ).
0 votos
Lo siento, debería haber mencionado explícitamente que Stein demostró que para $N=2$ la MLE es admisible. Véase projecteuclid.org/
4 votos
@mpiktas No es tan inaplicable como parece. La situación es similar a un ANOVA después de aplicar una reducción de suficiencia. Esto indica que las estimaciones habituales de ANOVA de las medias de los grupos son inadmisibles siempre que estemos tratando de estimar las medias de más de 3 grupos (lo que resulta ser cierto). Yo recomendaría buscar pruebas de que la MLE es admisible para $N = 1, 2$ y ver en qué fallan cuando intentan extenderse a $N = 3$ en lugar de limitarse a buscar pruebas de que el estimador de Stein hace lo que dice hacer, lo cual es fácil una vez que se tiene en mente el estimador.
2 votos
...y saber usar el Lemma de Stein. Creo que en realidad es un poco menos sencillo de lo que pensaba hace 6 minutos.
2 votos
Estoy de acuerdo. ¿Tienes alguna buena referencia al respecto (aparte del artículo original)? El artículo original de Stein me pareció demasiado computacional y esperaba que alguien hubiera desarrollado un método diferente en los últimos cincuenta años.
2 votos
La prueba que me enseñaron fue la de Brown y Hwang de 1983 que utiliza un método sugerido por Blyth de principios de los años 50 creo. Es bastante general (más general que el resultado de Stein en el sentido de que funciona para la familia exponencial) y, creo, bastante diferente de Stein. Pero no es trivial.
0 votos
Sólo hay que añadir que $\mathbb{E}||x||^2\ge ||\mu||^2$ se mantiene independientemente de la distribución normal, porque $||x||^{2}=\sum_i x_i^2$ y tenemos $E(x_i^2)=var(x_i)+\mu_i^2\geq\mu_i^2$ . El resultado se deduce, siempre que supongamos que el primer y el segundo momento existen y son finitos (y reales).
0 votos
@probabilityislogic: Basta con que exista el primer momento para que este resultado se mantenga ya que $\mathbb{E} X^2 \geq (\mathbb{E}X)^2$ por la desigualdad de Jensen.
0 votos
@probabilityislogic y cardinal ¿Os importaría explicaros? :) Tengo curiosidad pero no veo exactamente a qué os referís.
0 votos
Cardenal - por supuesto. @Har - Sólo estaba señalando que no se requieren muchas suposiciones para tener $\mathbb{E}||x||^2\ge ||\mu||^2$ se satisface. Por lo tanto, si esta condición es la principal para que se aplique el fenómeno/paradoja de Stein (lo que parece insinuar el enunciado), entonces es mucho más cierto que cuando $x$ se distribuye normalmente. Así que la condición $x\in N(\mu,1)$ podría sustituirse por la condición $E(|x_i|)<\infty\;\;\;i=1,\dots,N$ (gracias al comentario del cardenal)
0 votos
Como usted señala, no es, por supuesto, la condición principal, sino sólo una de las razones por las que se puede sospechar que reducir la estimación es una buena idea. En el artículo original de Stein, él toma esto como punto de partida para la discusión intuitiva y muestra que el problema empeora aún más en dimensiones más altas. Actualizaré el texto en consecuencia.
1 votos
@prob: Es un punto muy menor, pero, sólo para aclarar, como dije originalmente: La media sólo tiene que existe no tiene por qué ser finito. :)
2 votos
¡@Har gran pregunta! (+1)
0 votos
Intentaré publicar una respuesta un poco más tarde, aunque sospecho que no es exactamente lo que buscas.
0 votos
Eso sería genial. Intentaré compartir también mis pensamientos, que no son precisamente iluminados, pero al menos algo más claros que hace unos días.