22 votos

¿Por qué el estimador de James-Stein se denomina estimador de "contracción"?

He estado leyendo sobre el estimador James-Stein. Se define así notas como

$$ \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X$$

He leído la prueba pero no entiendo la siguiente afirmación:

Geométricamente, el estimador James-Stein cada componente de $X$ hacia el origen...

¿Qué significa "reduce cada componente de $X$ ¿Hacia el origen? Estaba pensando en algo como $$\|\hat{\theta} - 0\|^2 < \|X - 0\|^2,$$ lo que es cierto en este caso siempre que $(p+2) < \|X\|^2$ ya que $$\|\hat{\theta}\| = \frac{\|X\|^2 - (p+2)}{\|X\|^2} \|X\|.$$

¿Es a esto a lo que se refiere la gente cuando dice "encogerse hacia cero" porque en el $L^2$ sentido de la norma, el estimador JS está más cerca de cero que $X$ ?

Actualización a 22/09/2017 : Hoy me he dado cuenta de que quizás estoy complicando demasiado las cosas. Parece que la gente realmente quiere decir que una vez que multiplicas $X$ por algo que es más pequeño que $1$ a saber, el término $\frac{\|X\|^2 - (p + 2)}{\|X\|^2}$ cada componente de $X$ será menor que antes.

32voto

Dipstick Puntos 4869

A veces una imagen vale más que mil palabras, así que permítanme compartir una con ustedes. A continuación puede ver una ilustración que procede del trabajo de Bradley Efron (1977) La paradoja de Stein en estadística . Como puede ver, lo que hace el estimador de Stein es acercar cada uno de los valores a la media general. Hace que los valores mayores que la media general sean menores, y que los valores menores que la media general sean mayores. Por contracción entendemos desplazar los valores hacia la media o hacia cero en algunos casos -como la regresión regularizada- que reduce los parámetros hacia cero.

Illustration of the Stein estimator from Efron (1977)

Por supuesto, no se trata sólo de encogerse, sino de lo que Stein (1956) y James y Stein (1961) es que el estimador de Stein domina al estimador de máxima verosimilitud en términos de error cuadrático total,

$$ E_\mu(\| \boldsymbol{\hat\mu}^{JS} - \boldsymbol{\mu} \|^2) < E_\mu(\| \boldsymbol{\hat\mu}^{MLE} - \boldsymbol{\mu} \|^2) $$

donde $\boldsymbol{\mu} = (\mu_1,\mu_2,\dots,\mu_p)'$ , $\hat\mu^{JS}_i$ es el estimador de Stein y $\hat\mu^{MLE}_i = x_i$ donde ambos estimadores se estiman sobre la $x_1,x_2,\dots,x_p$ muestra. Las pruebas figuran en los documentos originales y en el apéndice del documento al que se refiere. En lenguaje llano, lo que han demostrado es que si haces simultáneamente $p > 2$ entonces, en términos de error cuadrático total, te iría mejor reduciéndolos, en comparación con ceñirte a tus conjeturas iniciales.

Por último, el estimador de Stein no es ciertamente el único estimador que da el efecto de contracción. Para otros ejemplos, puede consultar esta entrada del blog o el referido Análisis bayesiano de datos libro de Gelman et al. También puede consultar los hilos sobre regresión regularizada, p. ej. ¿Qué problema resuelven los métodos de contracción? o ¿Cuándo utilizar métodos de regularización para la regresión? para otras aplicaciones prácticas de este efecto.

0 votos

El artículo parece útil y lo leeré. He actualizado mi pregunta para explicar mejor lo que pienso. ¿Podría echarle un vistazo? Gracias.

2 votos

@Tim Creo que el argumento de Misakov es legítimo en el sentido de que el estimador de James-Stein trae el estimador de $\theta$ más cercano a cero que el MLE. El cero juega un papel central y céntrico en este estimador y se pueden construir estimadores James-Stein que se contraen hacia otros centros o incluso subespacios (como en George, 1986). Por ejemplo, Efron y Morris (1973) se encogen hacia la media común, que equivale al subespacio diagonal.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X