58 votos

Intuición de por qué la paradoja de Stein sólo se aplica en dimensiones $\ge 3$

El ejemplo de Stein muestra que la estimación de máxima verosimilitud de $n$ variables normalmente distribuidas con medias $\mu_1,\ldots,\mu_n$ y desviaciones $1$ es inadmisible (bajo una función de pérdida cuadrada) si $n\ge 3$ . Para una prueba clara, véase el primer capítulo de Large-Scale Inference: Métodos empíricos de Bayes para la estimación, comprobación y predicción por Bradley Effron.

Esto me sorprendió mucho al principio, pero hay cierta intuición detrás de por qué uno podría esperar que la estimación estándar sea inadmisible (sobre todo, si $x \sim \mathcal N(\mu,1)$ entonces $\mathbb{E}\|x\|^2\approx \|\mu\|^2+n$ como se indica en el documento original de Stein, cuyo enlace figura más abajo).

Mi pregunta es más bien: ¿Qué propiedad de $n$ -(para $n\ge 3$ ) hace $\mathbb{R}^2$ falta que facilita el ejemplo de Stein? Las posibles respuestas podrían ser sobre la curvatura del $n$ -esfera, o algo completamente diferente.

En otras palabras, ¿por qué es admisible la MLE en $\mathbb{R}^2$ ?


Editar 1: En respuesta a la preocupación de @mpiktas sobre el 1,31 que sigue al 1,30:

$$E_\mu\left(\|z-\hat{\mu}\|^2\right)=E_\mu\left(S\left(\frac{N-2}{S}\right)^2\right)=E_\mu\left(\frac{(N-2)^2}{S}\right).$$

$$\hat{\mu_i} = \left(1-\frac{N-2}{S}\right)z_i$$ así que $$E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=E_\mu\left( 1-\frac{N-2}{S}+2\frac{z_i^2}{S^2}\right).$$ Por lo tanto, tenemos:

$$2\sum_{i=1}^N E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=2N-2E_\mu\left(\frac{N(N-2)}{S}\right)+4E_\mu\left(\frac{(N-2)}{S}\right)\\=2N-E_\mu\frac{2(N-2)^2}{S}.$$

Edición 2 : En este documento Stein demuestra que la MLE es admisible para $N=2$ .

0 votos

No estoy familiarizado con esto, pero he leído el pdf, y algunas cosas son bastante extrañas. En primer lugar, observamos una $N$ -y queremos hacer una inferencia sobre $N$ parámetros, lo cual es un poco optimista. En segundo lugar, la estimación MLE es simplemente la propia observación, no es de extrañar que no tenga las propiedades requeridas. Y tercero, la ecuación 1.31 no se deduce de la 1.30. De hecho, obtengo $E_\mu(N-2)^2/S+2E_\mu(N-2)/S-N$ que no es $N-E_\mu((N-2))^2/S$ . Y en cuarto lugar el último término de la última expresión es positivo para $N=1$ también por lo que la última declaración después de la ecuación 1.31 en el libro es ...

0 votos

... no es estrictamente cierto. Probablemente me estoy perdiendo algo trivial, pero estaría bien que añadieras algo más de contexto a la pregunta, ya que parece que importa mucho.

0 votos

Es probablemente el mismo lugar estrecho de entender que OLS es sólo un mejor lineal imparcial (BLUE), y existen mejores ejemplos sesgados o no lineales como el estimador James-Stein o el estimador LASSO que minimiza aún más el MSE.

54voto

giulio Puntos 166

La dicotomía entre los casos $d < 3$ y $d \geq 3$ para la admisibilidad de la MLE de la media de $d$-dimensional multivariante variable aleatoria normal es ciertamente impactante.

Hay otro ejemplo muy conocido en probabilidad y estadística en la que existe una dicotomía entre los $d < 3$ y $d \geq 3$ de los casos. Esta es la recurrencia de un simple paseo aleatorio en el entramado de $\mathbb{Z}^d$. Es decir, los $d$-dimensional simple paseo aleatorio es recurrente en 1 o 2 dimensiones, pero es transitorio en $d \geq 3$ dimensiones. El tiempo continuo de la analógica (en la forma de movimiento Browniano) también se mantiene.

Resulta que los dos están íntimamente relacionados.

Larry Brown demostró que las dos preguntas son esencialmente equivalentes. Es decir, la mejor invariante estimador de $\hat{\mu} \equiv \hat{\mu}(X) = X$ de $d$-dimensional multivariante media normal del vector es admisible si y sólo si $d$-dimensional el movimiento Browniano es recurrente.

De hecho, sus resultados van mucho más allá. Para cualquier sensato (es decir, la generalización de Bayes) estimador de $\tilde{\mu} \equiv \tilde{\mu}(X)$, con limitada (generalizada) $L_2$ riesgo, hay un explícito(!) correspondiente $d$-dimensional de difusión tales que el estimador de $\tilde{\mu}$ es admisible si y sólo si su correspondiente difusión es recurrente.

El local media de esta difusión es esencialmente la discrepancia entre los dos estimadores, es decir, $\tilde{\mu} - \hat{\mu}$ y la covarianza de la difusión es de 2 $I$. A partir de esto, es fácil ver que para el caso de la MLE $\tilde{\mu} = \hat{\mu} = X$, queremos recuperar (reescalado) el movimiento Browniano.

Así que, en cierto sentido, podemos ver que la cuestión de la admisibilidad a través de la lente de los procesos estocásticos y utilizar bien estudiado las propiedades de la diffusions para llegar a las conclusiones deseadas.

Referencias

  1. L. Brown (1971). Admisible de los peritos, el recurrente diffusions, y los insolubles problemas de valor de frontera. Ann. De matemáticas. Stat., vol. 42, no. 3, pp 855-903.
  2. R. N. Bhattacharya (1978). Criterios para la recurrencia y la existencia de invariantes medidas para multidimensional diffusions. Ann. Prob., vol. 6, no. 4, 541-553.

3 votos

En realidad, algo así es lo que esperaba. Una conexión con otro campo de las matemáticas (ya sea la geometría diferencial o los procesos estocásticos) que demuestre que la admisibilidad para $n=2$ no fue sólo una casualidad. ¡Gran respuesta!

0 votos

Inspirado por tu respuesta, he proporcionado algunos detalles y también he añadido una explicación geométrica en respuesta a este problema en MO: mathoverflow.net/questions/93745/

34voto

zowens Puntos 1417

@cardinal dio una gran respuesta (+1), pero todo el asunto sigue siendo misterioso a menos que uno esté familiarizado con las pruebas (y yo no lo estoy). Así que creo que la pregunta sigue siendo en cuanto a lo que es un intuitivo razón por la que la paradoja de Stein no aparece en $\mathbb R$ y $\mathbb R^2$ .

Encuentro muy útil una perspectiva de regresión ofrecida en Stephen Stigler, 1990, A Galtonian Perspective on Shrinkage Estimators . Considere la posibilidad de mediciones independientes $X_i$ cada uno de los cuales mide algún subyacente (no observado) $\theta_i$ y muestreo de $\mathcal N(\theta_i, 1)$ . Si de alguna manera supiéramos el $\theta_i$ podríamos hacer un gráfico de dispersión de $(X_i, \theta_i)$ pares:

Stein's paradox: regression perspective

La línea diagonal $\theta = X$ corresponde a un ruido nulo y a una estimación perfecta; en la realidad, el ruido es distinto de cero, por lo que los puntos están desplazados de la línea diagonal en dirección horizontal . Correspondientemente, $\theta = X$ puede verse como una línea de regresión de $X$ en $\theta$ . Sin embargo, sabemos que $X$ y quiere estimar $\theta$ por lo que deberíamos considerar más bien una línea de regresión de $\theta$ en $X$ -- que tendrá una pendiente diferente, sesgado horizontalmente como se muestra en la figura (línea discontinua).

Citando el documento de Stigler:

Esta perspectiva galtoniana de la paradoja de Stein la hace casi transparente. Los estimadores "ordinarios" $\hat \theta_i^0 = X_i$ se derivan de la línea de regresión teórica de $X$ en $\theta$ . Esa línea sería útil si nuestro objetivo fuera predecir $X$ de $\theta$ pero nuestro problema es el contrario, es decir, predecir $\theta$ de $X$ utilizando la suma de errores al cuadrado $\sum (\theta_i - \hat \theta_i)^2$ como criterio. Para ese criterio, los estimadores lineales óptimos vienen dados por la recta de regresión por mínimos cuadrados de $\theta$ en $X$ y los estimadores James-Stein y Efron-Morris son a su vez estimadores de ese estimador lineal óptimo. Los estimadores "ordinarios" se derivan de la línea de regresión incorrecta, los estimadores de James-Stein y Efron-Morris se derivan de aproximaciones a la línea de regresión correcta.

Y ahora viene la parte crucial (énfasis añadido):

Incluso podemos ver por qué $k\ge 3$ es necesario: si $k=1$ o $2$ la línea de mínimos cuadrados de $\theta$ en $X$ debe pasar por los puntos $(X_i, \theta_i)$ y, por tanto, para $k=1$ o $2$ las dos líneas de regresión (de $X$ en $\theta$ y de $\theta$ en $X$ ) deben coincidir en cada $X_i$ .

Creo que esto deja muy claro lo que tiene de especial $k=1$ y $k=2$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X