9 votos

¿Requiere un estimador de Bayes que el parámetro verdadero sea una posible variante de la prioridad?

Esta puede ser una pregunta un poco filosófica, pero allá vamos: En la teoría de la decisión, el riesgo de un estimador de Bayes $\hat\theta(x)$ para $\theta\in\Theta$ se define con respecto a una distribución a priori $\pi$ en $\Theta$ .

Ahora, por un lado, para los verdaderos $\theta$ haber generado los datos (es decir, "existir"), $\theta$ debe ser una variante posible bajo $\pi$ por ejemplo, tener una probabilidad no nula, una densidad no nula, etc.; por otro lado $\theta$ no se conoce, de ahí la elección de un prior, por lo que no tenemos ninguna garantía de que el verdadero $\theta$ es una variante posible bajo la $\pi$ que elegimos.

Ahora, me parece que de alguna manera tenemos que seleccionar $\pi$ tal que $\theta$ sería una posible variante. De lo contrario, no se cumplirían ciertos teoremas. Por ejemplo, la estimación minimax no sería una estimación de Bayes para una previa menos favorable, ya que podríamos hacer que esa previa fuera arbitrariamente mala excluyendo una gran región alrededor e incluyendo $\theta$ de su dominio. Sin embargo, garantizar que $\theta$ es de hecho en el dominio podría ser difícil de lograr.

Así que mis preguntas son:

  1. ¿Se asume generalmente que el actual $\theta$ es una posible variante de $\pi$ ?
  2. ¿Se puede garantizar esto?
  3. ¿Pueden detectarse de alguna manera los casos que violan esto, para no depender de teoremas como el minimax cuando las condiciones no se cumplen?
  4. Si no es necesario, ¿por qué se mantienen entonces los resultados estándar de la teoría de la decisión?

8voto

bheklilr Puntos 113
  1. Sí, generalmente se asume que el verdadero $\theta$ está en el dominio de la prioridad. Es responsabilidad del estadístico comprobar que así sea.

  2. Normalmente, sí. Por ejemplo, al estimar una media o un parámetro de localización, cualquier prioridad sobre $(-\infty, \infty)$ tendrá el valor verdadero en su dominio. (Si se sabe que el parámetro es mayor que cero, por ejemplo, "número medio de accidentes de tráfico en el Puente de la Bahía por día", el prior no necesita incluir valores negativos, obviamente). Si estamos estimando una probabilidad, cualquier prioridad sobre $[0,1]$ tendrá el valor verdadero en su dominio. Si estamos construyendo una prioridad sobre un término de varianza, cualquier prioridad sobre $(0, \infty)$ tendrá el valor verdadero en su dominio... y así sucesivamente.

  3. Si su posterior está "apilado" en un borde del dominio de la prioridad, y su prioridad impone una restricción innecesaria en el dominio en ese mismo borde, esto es un indicador ad-hoc de que la restricción innecesaria puede estar causando problemas. Pero esto sólo debería ocurrir si a) usted ha construido una prioridad cuya forma está impulsada en gran medida por la conveniencia en lugar del conocimiento previo real, y b) la forma inducida por la conveniencia de la prioridad restringe el dominio del parámetro a un subconjunto de lo que su dominio "natural" puede ser considerado.

Un ejemplo de ello es una antigua práctica, esperemos que ya obsoleta, de limitar la prioridad de un término de varianza ligeramente alejado de cero para evitar posibles dificultades computacionales. Si el valor real de la varianza está entre el límite y cero, bueno... pero pensar realmente en los valores potenciales de la varianza dados los datos, o (por ejemplo) poner la prioridad en el logaritmo de la varianza en su lugar, le permitirá evitar este problema, y una leve inteligencia similar debería permitirle evitar las prioridades de limitación de dominio en general.

  1. Contestado por #1.

2 votos

En el caso de que quien haya votado en contra de la respuesta vuelva, ¿por qué el "no es útil"?

6voto

Lev Puntos 2212

¡Muy buena pregunta! En efecto, tendría sentido que una "buena" distribución a priori diera una probabilidad positiva o un valor de densidad positivo al parámetro "verdadero" $\theta_0$ pero desde una perspectiva puramente decisoria no tiene por qué ser así. Un simple contraejemplo de esta "intuición" que $$\pi(\theta_0)>0$$ debería ser necesario, cuando $\pi(\cdot)$ es la densidad previa y $\theta_0$ es el valor "verdadero" del parámetro, es el brillante resultado de minimaxidad de Casella y Strawderman (1981): al estimar una media normal $\mu$ basado en una única observación $x\sim{\cal N}(\mu,1)$ con la restricción adicional de que $|\mu|<\rho$ , si $\rho$ es lo suficientemente pequeño, $\rho\le 1.0567$ En concreto, el estimador minimax corresponde a una prioridad uniforme (menos favorable) sobre $\{-\rho,\rho\}$ , lo que significa que $\pi$ da el mismo peso a $-\rho$ y $\rho$ (y ninguno a cualquier otro valor de la media $\mu$ ) $$\pi(\theta)=\frac{1}{2}\delta_{-\rho}(\theta)+ \frac{1}{2}\delta_{\rho}(\theta)$$ Cuando $\rho$ aumenta la prioridad menos favorable ve crecer su apoyo, pero sigue siendo un conjunto finito de valores posibles. Sin embargo la expectativa posterior, $\mathbb{E}[\mu|x]$ puede tomar cualquier valor en $(-\rho,\rho)$ .

El núcleo de la discusión (ver comentarios) puede ser que, si el Bayes se limitara a ser un punto en el soporte de $\pi(\cdot)$ sus propiedades serían muy diferentes.

Del mismo modo, al considerar los estimadores admisibles, los estimadores de Bayes asociados a una prioridad adecuada en un conjunto compacto suelen ser admisibles, aunque tengan un soporte restringido.

En ambos casos, la noción frecuentista (minimaxidad o admisibilidad) se define sobre el rango posible de parámetros y no sobre el valor "verdadero" del parámetro (lo que aporta una respuesta a la pregunta 4). $$\int_\Theta L(\theta,\delta) \pi(\theta|x)\text{d}\theta$$ o en el riesgo de Bayes $$\int_{\cal X}\int_\Theta L(\theta,\delta) \pi(\theta)f(x|\theta)\text{d}\theta\text{d}x$$ no implica el valor real $\theta_0$ .

Además, como se ha señalado en el ejemplo anterior, cuando el estimador de Bayes se define mediante una expresión formal como la media posterior $$\hat{\theta}^\pi(x)=\int_\Theta \theta\pi(\theta|x)\text{d}\theta$$ para la cuadrática (o $L_2$ ), este estimador puede tomar valores fuera del soporte de $\pi$ en los casos en que este soporte no es convexo.

A modo de apunte, al leer

para que lo verdadero haya generado los datos (es decir, que "exista"), debe ser una variante posible bajo , por ejemplo, tener una probabilidad no nula, una densidad no nula densidad

Lo considero una tergiversación del significado de un prior. Se supone que la distribución a priori no representa un mecanismo físico (o real) que vio el valor de un parámetro $\theta_0$ generado a partir de $\pi$ seguido de una observación $x$ generado a partir de $f(x|\theta_0)$ . La prioridad es una medida de referencia en el espacio de los parámetros que incorpora información previa y creencias subjetivas sobre el parámetro y que no es en absoluto única. Un análisis bayesiano es siempre relativo a la prioridad elegida para realizar este análisis bayesiano. Por lo tanto, no hay una necesidad absoluta de que el parámetro verdadero pertenezca al soporte de $\pi$ . Obviamente, cuando este soporte es un conjunto compacto conectado, ${\mathscr A}$ cualquier valor del parámetro fuera del conjunto ${\mathscr A}$ no puede ser estimada consistentemente por la media posterior $\hat{\theta}^\pi$ pero esto no impide que el estimador sea admisible.

0 votos

Respecto a tu último punto, esto es lo que me confunde: digamos que tengo alguna distribución normal con $\mu$ siendo un número negativo suficientemente pequeño. Si por alguna extraña razón pongo una prioridad log-normal (soporte $[0,+\infty)$ ) en $\mu$ (sin importar el sentido que tenga), un estimador de Bayes bajo tal previa sería seguramente peor que la estimación minimax, lo cual no se supone que ocurra. Pero tal vez estoy interpretando mal algo aquí...

0 votos

En el sentido de que un riesgo minimax sería menor que un previo menos favorable.

1 votos

Normalmente, cf. Berger (1985), un previo menos favorable corresponde al riesgo minimax.

3voto

Dipstick Puntos 4869

La respuesta sencilla e intuitiva es que antes refleja su conocimiento previo sobre el $\theta$ y el conocimiento mínimo que debes tener, es sobre su dominio. Si se utiliza un prior acotado, entonces se asume que los valores fuera de los límites tienen probabilidad cero, son imposibles, y esta es una suposición muy fuerte que no debería hacerse sin una buena justificación. Por eso, la gente que no quiere hacer suposiciones fuertes a priori, utiliza suposiciones vagas sobre $-\infty$ a $\infty$ .

Además del caso acotado, cuando su muestra crece, o más precisamente transmite más información, su posterior debería converger finalmente a $\theta$ sin importar lo anterior .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X