11 votos

Estimador de James-Stein con varianzas desiguales

Cada declaración de encuentro de la James-Stein estimador se supone que las variables aleatorias y se estima que tiene el mismo (y de unidad) de la varianza.

Pero todos estos ejemplos también mencionar que el JS estimador puede ser utilizado para la estimación de cantidades que no tienen nada que ver uno con otro. La wikipedia ejemplo es la velocidad de la luz, el consumo de té en Taiwán, y el cerdo de peso en Montana. Pero, presumiblemente, las mediciones en estas tres cantidades que tienen diferentes "verdadera" de las varianzas. ¿Esto representa un problema?

Esto se une a un gran problema conceptual que no entiendo, relacionados a esta pregunta: James-Stein estimador: ¿Cómo Efron y Morris calcular el $\sigma^2$ en el factor de encogimiento por su ejemplo del béisbol? Calculamos el factor de encogimiento $c$ como sigue:

$$ c = 1 - \frac{(k-3) \sigma^2} {\sum (y - \bar{y})^2} $$

Intuitivamente, creo que el $\sigma^2$ plazo es en realidad $\sigma^2_i$ -- diferente para cada cantidad que se estima. Pero el debate en cuestión habla sólo acerca del uso que el conjunto de la varianza...

Yo realmente apreciaría si alguien pudiera aclarar esta confusión!

8voto

zowens Puntos 1417

Esta pregunta se ha respondido claramente en la clásica serie de artículos sobre James-Stein estimador en el plano Empírico de Bayes contexto escrito en la década de 1970 por Efron & Morris. Principalmente estoy refiriendo a:

  1. Efron y Morris, 1970, Stein Paradoja en las Estadísticas

  2. Efron y Morris, 1973, Stein Estimación de la Regla y Sus Competidores-Un Enfoque Bayesiano Empírico

  3. Efron y Morris, 1975, Análisis de Datos con Stein Estimador y Sus Generalizaciones

La década de 1970 papel no es una técnica de exposición que es una lectura obligada. Hay que introducir el bateo de béisbol ejemplo (que se discute en el hilo que enlaza a); en este ejemplo, la observación de las desviaciones son de hecho se supone que ser igual para todas las variables, y el factor de encogimiento $c$ es constante.

Sin embargo, se procede a dar otro ejemplo, que es la estimación de las tasas de toxoplasmosis en un número de ciudades en El Salvador. En cada ciudad diferente número de personas que fueron encuestadas, y para observaciones individuales (toxoplasmosis tasa en cada ciudad) se puede pensar de las diferencias en las varianzas (cuanto menor sea el número de personas encuestadas, el mayor de la varianza). La intuición es, ciertamente, que los puntos de datos con baja varianza (bajo incertidumbre) no necesita ser reducido, tan fuerte como puntos de datos con alta varianza (alta incertidumbre). El resultado de su análisis se muestra en la siguiente figura, donde este es, de hecho, puede verse estar sucediendo:

enter image description here

Los mismos datos y análisis se presentan en la mucho más técnica 1975 papel así, de una manera mucho más elegante figura (por desgracia, no mostrando las variaciones individuales), consulte la Sección 3:

enter image description here

Hay que presentar una simplificado Empírico de Bayes tratamiento que va como sigue. Vamos $$X_i|\theta_i \sim \mathcal N(\theta_i, D_i)\\ \theta_i \sim \mathcal N(0, A)$$ where $Un$ is unknown. In case all $D_i=1$ are identical, the standard Empirical Bayes treatment is to estimate $1/(1+A)$ as $(k-2)/\sum X_j ^2$, and to compute the a posteriori mean of $\theta_i$ as $$\hat \theta_i = \left(1-\frac{1}{1+A}\right)X_i = \left(1-\frac{k-2}{\sum X_j^2}\right)X_i,$$ que no es otra cosa que la de James-Stein estimador.

Ahora si $D_i \ne 1$, el de Bayes regla de actualización es $$\hat \theta_i = \left(1-\frac{D_i}{D_i+A}\right)X_i$$ and we can use the same Empirical Bayes trick to estimate $Un$, even though there is no closed formula for $\hat$ en este caso (ver artículo). Sin embargo, se nota que

... esta regla no se reduce a Stein cuando todos los $D_j$ son iguales, y que en lugar de utilizar una variante menor de este estimador derivados en [1973], que no se reducen a Stein. La variante de la regla se calcula un valor diferente a $\hat A_i$ para cada ciudad. La diferencia entre las reglas es menor en este caso, pero podría ser importante si $k$ fueron menores.

La sección pertinente en 1973 en el papel de la Sección 8, y es un poco más difícil de leer. Curiosamente, de forma explícita comentario en la sugerencia hecha por @chico en los comentarios de arriba:

De una manera muy simple para generalizar la James-Stein regla para esta situación es definir $\tilde x_i = D_i^{-1/2} x_i, \tilde \theta_i = D_i^{-1/2} \theta_i$, por lo que el $\tilde x_i \sim \mathcal N(\tilde \theta_i, 1)$, aplicar [la original de James-Stein regla] para los datos transformados, y luego se transforma de nuevo a las coordenadas originales. El resultado de la regla de las estimaciones de la $\theta_i$ por $$\hat \theta_i = \left(1-\frac{k-2}{\sum [X_j^2 / D_j]}\right)X_i.$$ This is unappealing since each $X_i$ se reduce hacia el origen por el mismo factor.

Luego van y describir su preferido procedimiento para la estimación de $\hat A_i$ que debo confesar que no he leído completamente (que es un poco implicado). Yo sugiero que busque allí, si usted está interesado en los detalles.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X