Supongamos que tengo que $X$ es una variable aleatoria de Poisson con una media de $\lambda$. Supongamos que una regla de decisión es la estimación de $\lambda$ mediante $\delta(Y) = aY$. Ahora, vamos a $K$ es la clase de todas las reglas de decisión donde $0< a<1$. Me gustaría ver que utilizando el cuadrado de la función de pérdida, cada regla de decisión en $K$ es admisible en $K$. Sin embargo, no estoy seguro de lo que está destinado a ser admisible en $K$. Parece que Si, por ejemplo, me tome $a = \frac{1}{2}$,$\delta(Y) = \frac{1}{2}Y$, pero siempre se puede encontrar otro $a$ dentro $0< a<1$ de manera tal que la pérdida es menor. En otras palabras, parece que para satisfacer este criterio, la única manera en que esto puede suceder es que si el riesgo es igual entre todas las reglas dentro de la clase. Alguien me puede ayudar a ver lo que está pasando? gracias!
Respuestas
¿Demasiados anuncios?Para realmente ver lo que está pasando, gráficos de ayuda.
Vamos a comenzar con las definiciones. Voy a presentar ambos matemáticamente y en un simbólico lenguaje de computación Mathematica (para mostrar cómo concretas y prácticas que son).
Un estimador $t$ de un parámetro de $\theta$ es un procedimiento para convertir cualquier muestra de $X$ en un número $t(X)$. En esta situación, usted está comparando un conjunto de estimadores indexado por un número $a$. Llamemos a $t_a$. Usted dice que $t_a(X) = aX$. Código:
estimator[sample_, a_:] := a sample
La pérdida de $\Lambda$ penaliza a las discrepancias entre el resultado de un estimador y el verdadero valor del parámetro. El cuadrado es la pérdida de la función de $\Lambda(t, \theta) = (t-\theta)^2$. Código:
loss[estimate_, parameter_] := (estimate - parameter)^2
El riesgo de $r$ es la pérdida esperada para cualquier valor del parámetro $\theta$ cuando se utiliza un determinado estimador $t$; es decir, $r_t(\theta) = \mathbb{E}_\theta(\Lambda(t(X), \theta)).$ Código de:
risk[parameter_, estimator_, loss_, family_] := Module[{x}, Expectation[loss[estimator[x], parameter], x \[Distributed] family[parameter]]]
El riesgo es explícitamente una función de los parámetros. La comparación de las funciones es complicado, así que vamos a la razón. Para comparar los estimadores $t$$t^\prime$, considere la posibilidad de un valor de parámetro $\theta$. Si el riesgo de la utilización de $t$ es menor que el riesgo de uso de $t^\prime$, entonces obviamente, usted quiere usar $t$: su pérdida esperada es menor. Desafortunadamente, usted no sabe el valor de $\theta$ - por eso eres la estimación! Por lo tanto, se desea estudiar el paisaje mediante la comparación de $t$ $t^\prime$para todos los valores plausibles de $\theta$. En el lenguaje del riesgo, se quiera graficar las funciones $r_{t}(\theta)$$r_{t^\prime}(\theta)$. En la mayoría de los casos, para algunos valores de $\theta$ el riesgo de $t$ será más pequeño y para los otros valores de $\theta$ el riesgo de $t^\prime$ será menor. Sin embargo, si, dado un procedimiento de $t$ usted está pensando en usar--usted puede encontrar a otro procedimiento de $t^\prime$ cuyo riesgo en cualquier $\theta$ no es peor que el riesgo de $t$ y a veces es definitivamente mejor, entonces ¿por qué usar $t$ a todos? Tal $t$ se llama inadmisible. Todos los otros $t$ son admisibles.
Gráficamente, la trama de riesgo frente al parámetro de una inadmisible $t$ se encuentran por encima de (o en) la parcela de algunos otros $t^\prime$. Por lo tanto, para evaluar la admisibilidad usted necesita para trazar el riesgo de funciones de todos los procedimientos y comprobar si dos de ellos de la cruz. Después de todo, si es siempre el caso de que la parcela de $t$ y la trama de $t^\prime$ cruz, no importa lo $t$ o $t^\prime$ podría ser, entonces ninguno de los dos es siempre superior a la de los otros.
Vamos a trazar los riesgos de una cuidadosa selección de los procedimientos de $t_a$ en la pregunta. Elegí $a \in \{1/1000, 1/3, 1/2, 6/7\}$ como ser buenos representantes de toda la familia. Dado que el parámetro es un número positivo, obviamente, yo no puedo parcela de la totalidad de cada función de riesgo, pero mirando un buen rango de valores de los parámetros por lo menos puedo tener una idea de lo que está pasando. El rango de $0$ $3$funciona bien. Código:
Plot[Evaluate@Table[risk[parameter, estimator[#, a] &, loss, PoissonDistribution],
{a, {1/1000, 1/3, 1/2, 6/7}}], {parameter, 0, 3}]
Ahora usted puede ver que el riesgo de funciones de superposición. Para las pequeñas $a$ se levantan rápidamente y alcanzar realmente muy alto riesgo, pero sin embargo para valores muy pequeños del parámetro que todavía parecen tener un menor riesgo de otras funciones del riesgo. Esto es intuitivo: un pequeño valor de $a$ es directivo de la estimación a la baja de los valores y esto va a funcionar bien cuando el parámetro es pequeño. Un mayor valor de $a$ va a funcionar mejor para valores mayores del parámetro.
Sería bueno probar que. Para ello, usted tiene que los nudillos hacia abajo y hacer el cálculo. Código:
risk[\[Lambda], estimator[#, a] &, loss, PoissonDistribution]
$(1-a)^2 \lambda^2 + a^2 \lambda$
Todo lo que queda es mostrar que cualquier dos funciones se cruzan en algún valor positivo del parámetro $\lambda$. Ese es un asunto de elemental álgebra de poco interés aquí. He de señalar, sin embargo, que dado que todos los riesgos son múltiplos del parámetro $\lambda$, puede que el factor de ti, reducir el problema a la comparación de los gráficos de $\lambda \to a^2 + (1-a)^2 \lambda$, lo que es una familia de (mutuamente cruce) líneas:
Cada valor de $a$ produce una línea que muestra $1/\lambda$ veces la función de riesgo para $t_a$. Los colores entre las líneas de posgrado de la red a través de la azul como $a$ aumenta de$0$$1$.
Si se considera el problema de Poisson, $X\sim \mathcal{P}(\lambda)$, bajo pérdida cuadrática, si $\delta_a(x)=ax$, entonces $$ \begin{align} R(\lambda,\deltaa)&=\mathbb{E}\lambda[(aX-\lambda)^2]\qquad\qquad\qquad\qquad\ &=a^2\text{var}\lambda(X)+(\mathbb{E}\lambda[aX]-\lambda)^2\ &=a^2\lambda+(a\lambda-\lambda)^2\qquad\qquad\ &=\lambda{a^2+\lambda(a-1)^2} \end{align} $$ que le ayudarán a comparar el % de estimadores $\delta_a$. Es decir, $$\begin{align}R(\lambda,\delta_a)-R(\lambda,\delta_b)&=\lambda{a^2+\lambda(a-1)^2-b²-\lambda(b-1)²}\&=\lambda{[a²-b²]+\lambda[(a-1)^2-(b-1)²]}\&=\lambda{(a-b)(a+b)+\lambda(a-b)(a+b-2)}\&=(a-b)\,\lambda{(a+b)+\lambda(a+b-2)}\end{align}$ $