13 votos

MAPA es una solución a $L(\theta) = \mathcal{I}[\theta \ne \theta^{*}]$

Me han llegado a través de estas diapositivas (slide # 16 y #17) en uno de los cursos en línea. El instructor estaba tratando de explicar cómo Máximo Posterior Estimación(MAPA) es en realidad la solución de $L(\theta) = \mathcal{I}[\theta \ne \theta^{*}]$ donde $\theta^{*}$ es el verdadero parámetro.

Por favor alguien puede explicar cómo sigue?

Edit: Agregado de las diapositivas, en el caso de que la va el enlace roto. enter image description here

enter image description here

11voto

Lev Puntos 2212

En el caso específico del espacio de parámetro $\Theta$ es finito o countably infinite$$\Theta=\{\theta_1,\theta_2,\ldots\}$$ the posterior loss associated with the indicator loss is equal to the probability of being wrong $\mathbb{P}(\hat{\theta}\ne\theta|x)$ and it is minimised when the posterior probability of being correct $\mathbb{P}(\hat{\theta}=\theta|x)$ is maximised. This means that $\hat{\theta}$ es el modo de la distribución posterior o el MAPA.

Sin embargo, esta asociación de MAPA y $0-1$ es la pérdida de un "folk theorem", en lo que es incorrecto en la mayoría de los entornos, es decir, no se sostiene para el parámetro continuo espacios donde $\mathbb{P}(\hat{\theta}=\theta|x)=0$ todos los $\hat{\theta}$'s y más conflictos con los resultados de Druihlet y Marin (BA, 2007), quienes señalan que el MAPA en última instancia depende de la elección de la dominante medida. (Aunque la medida de Lebesgue es implícitamente elegido como el valor predeterminado.)

Por ejemplo, Evans y Jang publicado un arXiv papel en el 2011, donde se discute la relación entre la MAPA, menos relativa sorpresa (o máximo perfil de probabilidad) de los peritos, y la pérdida de las funciones. El núcleo de la cuestión es que ni el MAPA de los peritos, ni Emv son realmente justificado por una decisión de la teoría de la aproximación, al menos en un continuo de espacio de parámetros. Y que domina la medida [arbitrariamente] elegido en el espacio de parámetros que impacta en el valor del MAPA, como se demuestra por Druihlet y Marin en 2007. En el caso finito con la pérdida de la función $$ \mathrm{L}(\theta,d) = \mathbb{I}\{\Psi(\theta) \ne d) / \pi_\Psi(\Psi(\theta)) $$ donde se considere la estimación de la transformación Ψ(θ) por d, inversamente, ponderado por la marginal antes de esta transformación. En el caso especial de la identidad de transformación, esta pérdida conduce a la función de la MLE como el estimador de Bayes. En el caso general, el estimador de Bayes es el perfil máximo de probabilidad del estimador (LRSE). Sin embargo, esta pérdida de la función de no generalizar a countably infinito (y obviamente continua) parámetro espacios y en tales situaciones, los autores sólo pueden proporcionar LRSEs como los límites de Bayes procedimientos. La función de pérdida adoptado en el caso contables, por ejemplo, $$ \mathrm{L}(\theta,d) = \mathbb{I}\{\Psi(\theta) \ne d\} / \max\{\eta,\pi_\Psi(\Psi(\theta))\} $$ se une la disminución a cero. En el caso continuo, el indicador ya no funciona, por lo tanto la elección hecha por los autores es la de discretise el espacio Ψ(Θ) por una elección específica de una partición de bolas cuyos diámetros λ ir a cero. En el espíritu de Druihlet y Marin, esta elección depende de la métrica (y más regularidad condiciones). Además, la LRSE en sí $$ \max_{\psi}\pi_\psi(\psi|x)/\pi_\psi(\theta) $$ depende de la versión que se elija para las densidades (si no domina la medida), a menos que uno se impone en todas partes la igualdad de Bayes $$ \pi_{\psi}(\psi|x)/\pi_\psi(\theta)=f(x|\psi)/m(x) $$ en todas partes, cuando $$ f(x|\psi)=\int_{\{\theta;\Psi(\theta)=\psi\}}f(x|\theta)\pi(\theta)\mathrm{d}\theta $$ y $$ m(x)=\int f(x|\theta)\pi(\theta)\mathrm{d}\theta $$ en el espíritu de nuestro Savage-Dickey paradoja de papel.

Robert Bassett y Julio se Burlan de arXived un papel en 2016 discutir la posición de los Mapas dentro de la teoría de la decisión Bayesiana.

"...nos proporcione un contraejemplo a la comúnmente aceptada noción de MAPA estimadores como límite de los estimadores de Bayes tener 0-1 pérdida."

Los autores hablar de mi libro El Bayesiano Opción que indica esta propiedad sin más precauciones y estoy totalmente de acuerdo en que ser cuidadosos en este sentido! La dificultad se encuentra con el límite de la maximisers no siendo necesariamente el maximizador de el límite. El documento incluye un ejemplo para este efecto, con un previo como en el anterior, asociado con una distribución de muestreo que no depende del parámetro. Las condiciones suficientes propuestos en el mismo son que la parte posterior de la densidad es casi seguro adecuado o quasiconcave.

Véase también una alternativa caracterización del MAPA de los estimadores por Burger y Lucka como el adecuado estimadores de Bayes en el marco de otro tipo de función de pérdida, aunque más bien artificial. Los autores de este arXived papel empezar con una distancia basado en el estado; se llama el Bregman distancia, que puede ser el cuadrática o la entropía distancia que depende de la previa. La definición de una función de pérdida que es una mezcla de este Bregman distancia y de la distancia cuadrática $$ ||K(\hat u-u)||^2+2D_\pi(\hat u,u) $$ produce el MAPA como el estimador de Bayes. Uno podría preguntarse acerca de la dominando medida, pero tanto la pérdida de la función y el resultado de la calculadora son claramente depende de la elección de la dominante medida... (La pérdida depende de la previa, pero esto no es un inconveniente en sí.)

4voto

Gonzalo Matheu Puntos 103

Ir a través de las diapositivas que has compartido, me parece que la idea es explicar cómo el MAPA de estimación puede ser utilizado para la estimación de propiedades diferentes de las de la parte posterior, tales como la media, la moda y la mediana. Voy a intentar explicar esto en el contexto General de la Estimadores Bayesianos como se presenta en Stephen M. Kay libro, Fundamentos de Estadística de Procesamiento de la Señal.

Vamos a empezar por considerar tres tipos de Riesgo (es decir, las funciones de costo) asociados con la estimación del parámetro de $\theta$:

  1. $C(e) = e^2$
  2. $C(e) = |e|$
  3. $if -\delta < e < \delta, C(e)=0$; else $C(e)=1$

donde, $e = \theta - \hat{\theta}$, en el que $\hat{\theta}$ es el valor estimado y el $\theta$ es el verdadero parámetro. En la estimación Bayesiana, el objetivo es minimizar el riesgo previsto, que es:

$E[C(e)]= \int_X \int_{\theta} C(e)p(X,\theta)d\theta dX = \int_X \left[\int_\theta C(e)p(\theta|X)d\theta\right] p(X)dX$

ya que nosotros sólo nos preocupamos de $\theta$, es suficiente para minimizar el interior de la integral de la $\min_{\theta}\int_\theta C(e)p(\theta|X)d\theta$.

Ahora, dependiendo de la $C(e)$ elegimos, el estimador nos dará una propiedad diferente de la parte posterior. Por ejemplo, si se elige el primer caso, $C(e) = e^2$, la minimización $\theta$$\int_\theta C(e)p(\theta|X)d\theta$, es la media. Puesto que usted es pregunta es con respecto a la función del indicador de $I[\hat{\theta}\ne \theta]$, voy a abordar el tercer riesgo mencionados anteriormente (que si se para a pensarlo $\delta\rightarrow 0$ es equivalente a usar el indicador).

Para el Caso de 3 de arriba:

$\int_\theta C(e)p(\theta|X)d\theta = \int_{-\infty}^{\hat{\theta}-\delta}p(\theta|X)d\theta + \int_{\hat{\theta}+\delta}^{\infty}p(\theta|X)d\theta = 1 - \int_{\hat{\theta}+\delta}^{\hat{\theta}+\delta}p(\theta|X)d\theta$

que para $\delta \rightarrow 0$ se minimiza cuando se $\hat{\theta}$ corresponde a la modalidad de la parte posterior.

1voto

Jenne Puntos 57

Voy a dar el resumen del texto mencionado acerca de este problema en el Capítulo 5, la Estadística Bayesiana, la Máquina de Aprendizaje: Una perspectiva probabilística por Murphy.

Digamos que hemos observado algunos datos $X$, y queremos comentar acerca de la distribución posterior de los parámetros de $p(\theta|X)$. Ahora, el cálculo del punto de la modalidad de esta distribución posterior, que es ampliamente conocido como el MAPA, tiene ciertos inconvenientes.

A diferencia de la media o la mediana, esto es un "atípicas", en el sentido de que no considera todos los otros puntos, mientras que ser estimado. En el caso de la estimación de la media/mediana, tomamos todos los otros puntos en consideración.

Así que, como era de esperar, muy sesgada de las distribuciones posteriores, el MAPA(y, por extensión, el MLE) no representa verdaderamente la realidad posterior.

Así que, ¿cómo resumir un posterior uso de un punto de estimación, como la Media/Mediana/Modo?

Esto es donde la gente utiliza la teoría de la decisión - esencialmente una función de Pérdida $L(\theta, \hat{\theta})$ que es la pérdida de uno de los que se incurre si la verdad es $\theta$ $\hat{\theta}$ es nuestra estimación. Podemos elegir una gran variedad de Pérdida de las funciones y nuestro objetivo es minimizar el valor esperado de la función de Pérdida.

Si la Pérdida de la función$L(\theta, \hat{\theta})$$\mathbb{I}(\hat{\theta}\ne\theta|x)$, un Indicador de la función para el todas las veces cuando NO PODEMOS estimar la verdad, luego de minimizar el valor esperado de la Pérdida de la función wrt $\theta$ es igual a la Maximización de esta función $\mathbb{I}(\hat{\theta}=\theta|x)$ wrt $\theta$. A partir de esto, es intuitivo pensar que Posterior modo minimiza el valor esperado de la función de pérdida. Los detalles de este cálculo se puede ver en la respuesta anterior.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X