65 votos

¿Son los bayesianos esclavos de la función de probabilidad?

En su libro "All of Statistics", el profesor Larry Wasserman presenta el siguiente ejemplo (11.10, página 188). Supongamos que tenemos una densidad $f$ tal que $f(x)=c\,g(x)$ , donde $g$ es un conocido (no negativa, integrable) y la constante de normalización $c>0$ es desconocido .

Nos interesan los casos en los que no podemos calcular $c=1/\int g(x)\,dx$ . Por ejemplo, puede darse el caso de que $f$ es un pdf sobre un espacio muestral de muy alta dimensión.

Es bien sabido que existen técnicas de simulación que nos permiten tomar muestras de $f$ aunque $c$ es desconocido. Por lo tanto, el rompecabezas es: ¿Cómo podemos estimar $c$ de dicha muestra?

El profesor Wasserman describe la siguiente solución bayesiana: dejemos $\pi$ ser algo previo para $c$ . La probabilidad es $$ L_x(c) = \prod_{i=1}^n f(x_i) = \prod_{i=1}^n \left(c\,g(x_i)\right) = c^n \prod_{i=1}^n g(x_i) \propto c^n \, . $$ Por lo tanto, la posterior $$ \pi(c\mid x) \propto c^n \pi(c) $$ no depende de los valores de la muestra $x_1,\dots,x_n$ . Por lo tanto, un bayesiano no puede utilizar la información contenida en la muestra para hacer inferencias sobre $c$ .

El profesor Wasserman señala que "los bayesianos son esclavos de la función de probabilidad. Cuando la probabilidad se desvía, también lo hace la inferencia bayesiana".

Mi pregunta para mis compañeros de pila es: En relación con este ejemplo concreto, ¿qué ha fallado (si es que ha fallado algo) en la metodología bayesiana?

P.D. Como ha explicado amablemente el profesor Wasserman en su respuesta, el ejemplo se debe a Ed George.

46voto

Lev Puntos 2212

No veo mucho atractivo en este ejemplo, sobre todo como crítica potencial a los bayesianos y a los likelihood-wallahs.... La constante $c$ es conocido, siendo igual a $$ 1\big/ \int_\mathcal{X} g(x) \text{d}x $$ Si $c$ es la única "incógnita" en el cuadro, dada una muestra $x_1,\ldots,x_n$ entonces no hay una cuestión estadística sobre el problema y no estoy de acuerdo en que exista estimadores de $c$ . Tampoco antecedentes en $c$ (aparte de la masa de Dirac en el valor anterior). No se trata en absoluto de un problema estadístico, sino de un numérico cuestión.

Que la muestra $x_1,\ldots,x_n$ puede utilizarse mediante una estimación de la densidad (frecuentista) para proporcionar una aproximación numérica de $c$ es una mera curiosidad. No es una crítica a los enfoques estadísticos alternativos: También podría utilizar una estimación de la densidad bayesiana...

44voto

deadfish Puntos 150

Esto se ha discutido en mi documento (publicado sólo en Internet) "Sobre un ejemplo de Larry Wasserman" [ 1 ] y en un intercambio de blogs entre Wasserman, Robins, yo y algunos otros comentaristas en el blog de Wasserman: [ 2 ]

La respuesta corta es que Wasserman (y Robins) generan paradojas al sugerir que las priores en espacios de alta dimensión "deben" tener características que implican o bien que el parámetro de interés se conoce a priori con casi certeza o bien que se sabe con casi certeza que un problema claramente relevante (sesgo de selección) no está presente. De hecho, los priores sensatos no tendrían estas características. Estoy escribiendo una entrada en el blog para resumir todo esto. Hay un excelente artículo de 2007, que muestra enfoques bayesianos sensatos para los ejemplos que Wasserman y Ritov consideran, de Hameling y Toussaint: "Estimadores bayesianos para el problema de Robins-Ritov" [ 3 ]

43voto

underdog012 Puntos 168

Estoy de acuerdo en que el ejemplo es raro. En realidad, pretendía que fuera más bien un rompecabezas. (El ejemplo se debe en realidad a Ed George).

Esto plantea la cuestión de qué significa que algo sea "conocido". Christian dice que $c$ es conocido. Pero, al menos desde el punto de vista punto de vista de la probabilidad puramente subjetiva, no se sabe sólo porque en principio se puede conocer. (Supongamos que no se puede hacer el integral numérica). Un bayesiano subjetivo considera todo como una variable aleatoria variable aleatoria con una distribución, incluyendo $c$ .

En cualquier caso, el papel

A. Kong, P. McCullagh, X.-L. Meng, D. Nicolae y Z. Tan (2003), A teoría de los modelos estadísticos para la integración de Monte Carlo integración , J. Real Statistic. Soc. B , vol. 65, no. 3, 585-604

(con discusión) trata esencialmente el mismo problema.

El ejemplo al que alude Chris Sims en su respuesta es el de un naturaleza diferente.

24voto

farzad Puntos 4180

El modelo estadístico propuesto puede describirse como sigue: Se tiene un conocido función integrable no negativa $g:\mathbb{R}\to\mathbb{R}$ y una variable aleatoria no negativa $C$ . Las variables aleatorias $X_1,\dots,X_n$ se supone que son condicionalmente independientes e idénticamente distribuidos, dado que $C=c$ con densidad condicional $f_{X_i\mid C}(x_i\mid c)=c\,g(x_i)$ , para $c>0$ .

Por desgracia, en general, ésta no es una descripción válida de un modelo estadístico. El problema es que, por definición, $f_{X_i\mid C}(\,\cdot\mid c)$ debe sea una densidad de probabilidad para casi todos los valores posibles de $c$ que, en general, es claramente falso. De hecho, es cierto sólo para el único valor $c=\left(\int_{-\infty}^\infty g(x)\,dx\right)^{-1}$ . Por lo tanto, el modelo está correctamente especificado sólo en el caso trivial cuando la distribución de $C$ se concentra en este valor concreto. Por supuesto, este caso no nos interesa. Lo que queremos es la distribución de $C$ para ser dominado por la medida de Lebesgue, teniendo un bonito pdf $\pi$ .

Por lo tanto, la definición de $x=(x_1,\dots,x_n)$ la expresión $$ L_x(c) = \prod_{i=1}^n \left(c\,g(x_i)\right) \, , $$ en función de $c$ , para los fijos $x$ no corresponde a una verdadera función de probabilidad.

Todo lo que viene después hereda este problema. En particular, el posterior calculado con el Teorema de Bayes es falso. Es fácil verlo: supongamos que tenemos una adecuado antes $$ \pi(c) = \frac{1}{c^2} \,I_{[1,\infty)}(c) \, . $$ Tenga en cuenta que $\int_0^\infty \pi(c)\,dc=1$ . Según el cálculo presentado en el ejemplo, la posterioridad debería ser $$ \pi(c\mid x) \propto \frac{1}{c^{2-n}}\, I_{[1,\infty)}(c) \, . $$ Pero si eso es correcto, este posterior sería siempre impropio, porque $$ \int_0^\infty \frac{1}{c^{2-n}}\,I_{[1,\infty)}(c)\,dc $$ diverge para cada tamaño de muestra $n\geq 1$ .

Esto es imposible: sabemos que si empezamos con una previa adecuada, nuestra posterior no puede ser impropia para cada muestra posible (puede ser impropia dentro de un conjunto de probabilidad predictiva previa nula).

14voto

Mongus Pong Puntos 83

Es una ironía que la forma estándar de hacer cálculos bayesianos sea utilizar el análisis frecuentista de las muestras MCMC. En este ejemplo podríamos considerar $c$ estar estrechamente relacionado con la probabilidad marginal, que nos gustaría calcular, pero vamos a ser puristas bayesianos en el sentido de intentar hacer también el cálculo de forma bayesiana.

No es común, pero es posible hacer esta integral en un marco bayesiano. Esto implica poner una prioridad en la función $g()$ (en la práctica un proceso gaussiano) evaluando la función en algunos puntos, condicionando a estos puntos y calculando una integral sobre la posterior sobre $g()$ . En esta situación, la probabilidad consiste en evaluar $g()$ en varios puntos, pero $g()$ se desconoce, por lo que la probabilidad es muy diferente a la dada anteriormente. El método se demuestra en este documento http://mlg.eng.cam.ac.uk/zoubin/papers/RasGha03.pdf

No creo que la metodología bayesiana haya fallado. La probabilidad tal y como está escrita trata $g()$ como se sabe en todas partes. Si esto fuera así, no habría ningún aspecto estadístico en el problema. Si $g()$ se supone que se desconoce excepto en un número finito de puntos La metodología bayesiana funciona bien.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X