Existe un excelente número de Statistical Science que aborda el fenómeno James-Stein desde diversos aspectos. https://www.jstor.org/stable/i23208816
Pregunta ¿Qué significa que un estimador de James-Stein supera al de mínimos cuadrados?
Significa que el estimador JS tiene un riesgo menor que LSE con respecto a a función de riesgo prescrita $R(\delta)=E_{\theta}L(\delta,\theta)$ que equivale a decir que si elegimos $L^2$ función de pérdida, entonces la dimensión es superior a 3, la LSE para la media ya no es admisible. El único estimador admisible debería ser el estimador JS.
El estimador JS original asume una distribución gaussiana multidimensional. Pero más tarde con la consideración de la admisibilidad, hay varios casos en los que el estimador shirkage (estimador JS) realmente vence al LSE (también MLE) y a otros estimadores frecuentistas. Y "vencer" también depende del $L^2$ función de pérdida que elija, y por lo tanto la función de riesgo $R$ que elija para este problema de decisión. Para ilustrar este punto, consideremos el caso gaussiano con $L^2$ función de pérdida en la explicación siguiente.
Hay dos enfoques que me parecen muy intuitivos.
(1)Vinculación entre el estimador JS y el proceso de difusión.
Brown [1] señaló que, en el marco de la teoría de la decisión, se podía demostrar que la admisibilidad y la recurrencia del movimiento browniano son equivalentes. Además, Brown demostró en su teorema principal que mediante un problema de minimización variacional, la admisibilidad de un estimador puede discutirse utilizando la recurrencia del movimiento browniano correspondiente. Este enfoque variacional puede extenderse a otras situaciones.
Teorema 5.1 en [1] modificado. Una condición necesaria para $\delta$ t admisible con un riesgo determinado $R$ es que existe una medida no negativa $F$ s.t. su densidad $f^{*}<\infty$ y $\delta(x)=\delta_{F}(x)$ ( con respecto a F) para casi todos los $x\in E^{m}$ con respecto a la medida de Lebesgue. Además
(A) Si $\{Z_{t}\}$ es transitorio, entonces $\delta$ es inadmisible.
(B) Si $\{Z_{t}\}$ es recurrente y el conjunto de riesgos w.r.t. $R$ i entonces $\delta$ es inadmisible.
donde $\{Z_{t}\}$ es el proceso de difusión en $E^{m}$ a generador infinitesimal $\nabla(logf^{*})=\delta_{F}(x)-x$ y una covarianza de varianza local matriz $2I$ .
Por tanto, como los movimientos brownianos 1d y 2d son recurrentes, también lo es el estimador de la media; pero cuando se pasa a 3d, los movimientos brownianos son transitorios y, por tanto, los estimadores de la media ya no son admisibles y son vencidos por el estimador JS.
Este es probablemente uno de los resultados más célebres derivados de la estadística bayesiana e integró el proceso estocástico de forma tan perfecta que creo que incluso condujo a desarrollos posteriores de simulación MCMC.
(2)Interpretación geométrica del estimador JS. (impartido por Prof.M.P. :)
Zhao y Brown [3] señalaron que si nos restringimos a estimadores esféricamente simétricos, entonces el estimador óptimo geométrico ingenuo derivado de la geometría euclidiana simple $$\delta_{NGO}(Z)=\left[1-\frac{p-1}{\left\Vert Z\right\Vert ^{2}}\right]Z$$ está proporcionando la cantidad exacta de contracción como lo hizo el estimador JS. Este enfoque es intuitivo en el sentido de que los estimadores simétricos esféricos de la forma $\delta(X)=\tau(\|X\|)X$ con una función escalar $\tau$ La clave de usar esta clase de estimadores es que (i) Por consideración de admisibilidad, los estimadores que no son esféricamente simétricos son inadmisibles (ii) Por estructura del estimador esférico, proporciona una geometría natural que es isométrica a la geometría euclidiana. Por (i)(ii), el problema de elegir un estimador admisible se convierte en un problema de geometría de "compás y regla". ¡Increíble!
Referencia
[1]Brown, Lawrence D. "Estimadores admisibles, difusiones recurrentes y problemas insolubles de valor límite". The Annals of Mathematical Statistics 42.3 (1971): 855-903. http://projecteuclid.org/euclid.aoms/1177693318
[2] https://stats.stackexchange.com/questions/13494/intuition-behind-why-steins-paradox-only-applies-in-dimensions-ge-3
[3]Brown, Lawrence D., y Linda H. Zhao. "Una explicación geométrica de la contracción de Stein". Statistical Science (2012): 24-30.