21 votos

El fenómeno James-Stein: ¿Qué significa que un estimador de James-Stein supere al de mínimos cuadrados?

Fondo Estimador James-Stein y El fenómeno de Stein tal y como se describen en Wikipedia son bastante contraintuitivas y sorprendentes.

Se afirma que si se quiere estimar la media $\Theta$ de
Vector con distribución gaussiana $ y$ ~ $ N(\Theta, \sigma^2 Id)$ entonces el ingenuo e - (es decir, tomar simplemente $y$ como estimación) no es buena para tamaños de vector mayores o iguales a 3.

"No es bueno" significa que (cito Wikipedia) "el estimador de James-Stein siempre alcanza valores inferiores ( Error cuadrático medio (MSE) que el estimador de mínimos cuadrados".

Pregunta aclare la frase anterior. Me pregunto lo siguiente: normalmente, cuando calculamos el MSE necesitamos una distribución sobre el parámetro estimado $\Theta$ y el promedio en MSE se toma también sobre esta distribución.

¿Qué distribución se supone? ¿O puede ser que para CUALQUIER distribución sea cierto?

PS

El ejemplo de Stein es más general (cita Wikipedia):

El ejemplo (o fenómeno o paradoja) de Stein, en la teoría de la decisión y la teoría de la estimación, es el fenómeno de que cuando se estiman simultáneamente tres o más parámetros, existen estimadores combinados más precisos por término medio (es decir, que tienen un error cuadrático medio esperado menor) que cualquier método que trate los parámetros por separado. Esto es sorprendente, ya que los parámetros y las medidas pueden no estar relacionados en absoluto.

¿Una paradoja?

Han aparecido artículos populares que califican el estimador de James-Stein de paradoja; ¡habría que utilizar el precio del té en China para obtener una mejor estimación de la probabilidad de lluvia en Melbourne!

(Cita de la página sugerida por Deane Yang http://jmanton.wordpress.com/2010/06/05/comments-on-james-stein-estimation-theory/ )

16voto

Michael Prescott Puntos 849

Esto siempre me ha molestado. "Uno debería utilizar el precio del té en China para obtener una mejor estimación de la probabilidad de lluvia en Melbourne" no es una buena caracterización en absoluto. Se debería utilizar el precio del té en China y la probabilidad de lluvia en Melbourne para obtener una mejor estimación del vector que incluye tanto el precio medio del té en China como la probabilidad de lluvia en Melbourne. El resultado de Stein sólo se obtiene si se tiene en cuenta un parámetro de valor vectorial, es decir, si se supone que las observaciones son independientes desde el punto de vista probabilístico, pero interactúan claramente entre sí a través de la función de pérdida utilizada.

La idea que subyace a la cita es que puede cubrir sus apuestas en cualquier dimensión de coordenadas "encogiéndose" hacia la media "global" (a través de todos los elementos del vector medio). Pero observe que la "contracción" no tiene por qué ser hacia la media global para que el resultado se mantenga... puede contraerse hacia cualquier valor en absoluto y aún así obtener el resultado, que tiene que ver con la definición de admisibilidad utilizada. Mi descripción favorita de lo que está pasando es aquí que es el capítulo 1 de Inferencia a gran escala: Empirical Bayes Methods for Estimation, Testing, and Prediction, de Brad Efron.

11voto

itsafire Puntos 511

Existe un excelente número de Statistical Science que aborda el fenómeno James-Stein desde diversos aspectos. https://www.jstor.org/stable/i23208816

Pregunta ¿Qué significa que un estimador de James-Stein supera al de mínimos cuadrados?

Significa que el estimador JS tiene un riesgo menor que LSE con respecto a a función de riesgo prescrita $R(\delta)=E_{\theta}L(\delta,\theta)$ que equivale a decir que si elegimos $L^2$ función de pérdida, entonces la dimensión es superior a 3, la LSE para la media ya no es admisible. El único estimador admisible debería ser el estimador JS.

El estimador JS original asume una distribución gaussiana multidimensional. Pero más tarde con la consideración de la admisibilidad, hay varios casos en los que el estimador shirkage (estimador JS) realmente vence al LSE (también MLE) y a otros estimadores frecuentistas. Y "vencer" también depende del $L^2$ función de pérdida que elija, y por lo tanto la función de riesgo $R$ que elija para este problema de decisión. Para ilustrar este punto, consideremos el caso gaussiano con $L^2$ función de pérdida en la explicación siguiente.

Hay dos enfoques que me parecen muy intuitivos.

(1)Vinculación entre el estimador JS y el proceso de difusión.

Brown [1] señaló que, en el marco de la teoría de la decisión, se podía demostrar que la admisibilidad y la recurrencia del movimiento browniano son equivalentes. Además, Brown demostró en su teorema principal que mediante un problema de minimización variacional, la admisibilidad de un estimador puede discutirse utilizando la recurrencia del movimiento browniano correspondiente. Este enfoque variacional puede extenderse a otras situaciones.

Teorema 5.1 en [1] modificado. Una condición necesaria para $\delta$ t admisible con un riesgo determinado $R$ es que existe una medida no negativa $F$ s.t. su densidad $f^{*}<\infty$ y $\delta(x)=\delta_{F}(x)$ ( con respecto a F) para casi todos los $x\in E^{m}$ con respecto a la medida de Lebesgue. Además

(A) Si $\{Z_{t}\}$ es transitorio, entonces $\delta$ es inadmisible.

(B) Si $\{Z_{t}\}$ es recurrente y el conjunto de riesgos w.r.t. $R$ i entonces $\delta$ es inadmisible.

donde $\{Z_{t}\}$ es el proceso de difusión en $E^{m}$ a generador infinitesimal $\nabla(logf^{*})=\delta_{F}(x)-x$ y una covarianza de varianza local matriz $2I$ .

Por tanto, como los movimientos brownianos 1d y 2d son recurrentes, también lo es el estimador de la media; pero cuando se pasa a 3d, los movimientos brownianos son transitorios y, por tanto, los estimadores de la media ya no son admisibles y son vencidos por el estimador JS.

Este es probablemente uno de los resultados más célebres derivados de la estadística bayesiana e integró el proceso estocástico de forma tan perfecta que creo que incluso condujo a desarrollos posteriores de simulación MCMC.

(2)Interpretación geométrica del estimador JS. (impartido por Prof.M.P. :)

Zhao y Brown [3] señalaron que si nos restringimos a estimadores esféricamente simétricos, entonces el estimador óptimo geométrico ingenuo derivado de la geometría euclidiana simple $$\delta_{NGO}(Z)=\left[1-\frac{p-1}{\left\Vert Z\right\Vert ^{2}}\right]Z$$ está proporcionando la cantidad exacta de contracción como lo hizo el estimador JS. Este enfoque es intuitivo en el sentido de que los estimadores simétricos esféricos de la forma $\delta(X)=\tau(\|X\|)X$ con una función escalar $\tau$ La clave de usar esta clase de estimadores es que (i) Por consideración de admisibilidad, los estimadores que no son esféricamente simétricos son inadmisibles (ii) Por estructura del estimador esférico, proporciona una geometría natural que es isométrica a la geometría euclidiana. Por (i)(ii), el problema de elegir un estimador admisible se convierte en un problema de geometría de "compás y regla". ¡Increíble!

Referencia

[1]Brown, Lawrence D. "Estimadores admisibles, difusiones recurrentes y problemas insolubles de valor límite". The Annals of Mathematical Statistics 42.3 (1971): 855-903. http://projecteuclid.org/euclid.aoms/1177693318

[2] https://stats.stackexchange.com/questions/13494/intuition-behind-why-steins-paradox-only-applies-in-dimensions-ge-3

[3]Brown, Lawrence D., y Linda H. Zhao. "Una explicación geométrica de la contracción de Stein". Statistical Science (2012): 24-30.

5voto

K.Mooijman Puntos 23

A algunos de los puntos concretos planteados en esta pregunta, Blog de acertijos de probabilidad es un artículo que muestra el estimador de James Stein en acción. En concreto, hay un código R que puedes utilizar para verificarlo tú mismo para varias distribuciones (Normal y Poisson). Un punto clave a tener en cuenta es que el estimador devuelve variables "verdaderas" más cercanas que el MLE. Espero que le sirva de ayuda

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X