47 votos

¿Los priores bayesianos se vuelven irrelevantes con un tamaño de muestra grande?

Al realizar la inferencia bayesiana, operamos maximizando nuestra función de verosimilitud en combinación con las preconcepciones que tenemos sobre los parámetros. Como la log-verosimilitud es más conveniente, maximizamos efectivamente $\sum \ln (\text{prior}) + \sum \ln (\text{likelihood})$ utilizando un MCMC o de otro modo que genere las distribuciones posteriores (utilizando una pdf para la prioridad de cada parámetro y la probabilidad de cada punto de datos).

Si tenemos muchos datos, la probabilidad de que eso ocurra va a abrumar cualquier información que el previo proporcione, por simple matemática. En última instancia, esto es bueno y está diseñado; sabemos que la posterior convergerá a la probabilidad con más datos porque se supone que así debe ser.

Para los problemas definidos por priores conjugados, esto es incluso demostrable exactamente.

¿Existe una manera de decidir cuándo los priores no importan para una función de verosimilitud dada y un cierto tamaño de muestra?

57voto

Dipstick Puntos 4869

No es tan fácil. La información en sus datos abruma la información previa no sólo su tamaño de la muestra es grande, pero cuando sus datos proporcionan suficiente información para abrumar la información previa. Los priores poco informativos se dejan persuadir fácilmente por los datos, mientras que los fuertemente informativos pueden ser más resistentes. En un caso extremo, con priores mal definidos, los datos pueden no ser capaces de superarlos (por ejemplo, densidad cero en alguna región).

Recordemos que por el teorema de Bayes utilizamos dos fuentes de información en nuestro modelo estadístico, fuera de los datos, antes información, y la información transmitida por los datos en probabilidad función:

$$ \color{violet}{\text{posterior}} \propto \color{red}{\text{prior}} \times \color{lightblue}{\text{likelihood}} $$

Cuando se utiliza una priorización no informativa (o máxima verosimilitud), tratamos de introducir la mínima información previa posible en nuestro modelo. Con las priorizaciones informativas, introducimos una cantidad sustancial de información en el modelo. Así pues, tanto los datos como la prioridad nos informan de qué valores de los parámetros estimados son más plausibles o creíbles. Pueden aportar información diferente y, en algunos casos, cada una de ellas puede superar a la otra.

Permítanme ilustrar esto con un modelo beta-binomial muy básico (véase aquí para ver un ejemplo detallado ). Con "no informativa" previa , una muestra bastante pequeña puede ser suficiente para dominarla. En los gráficos siguientes se pueden ver los priores (curva roja), la probabilidad (curva azul) y los posteriors (curva violeta) del mismo modelo con diferentes tamaños de muestra.

enter image description here

Por otro lado, se puede tener una previa informativa que se acerque al valor verdadero, que también sería fácilmente, pero no tan fácilmente como con la informativa semanal, persuadida por los datos.

enter image description here

El caso es muy diferente con un previo informativo, cuando se aleja de lo que dicen los datos (usando los mismos datos que en el primer ejemplo). En este caso se necesita una muestra más grande para superar la prioridad.

enter image description here

Por lo tanto, no se trata sólo del tamaño de la muestra, sino también de cuáles son los datos y cuáles son los datos previos. Obsérvese que se trata de un deseado comportamiento, porque cuando se usan priores informativos se quiere para incluir potencialmente la información fuera de los datos en nuestro modelo y esto sería imposible si las muestras grandes descartaran siempre los priores.

Debido a las complicadas relaciones probabilidad posterior-prioridad, siempre es bueno mirar la distribución posterior y hacer algunas controles predictivos posteriores (Gelman, Meng y Stern, 1996; Gelman y Hill, 2006; Gelman et al, 2004). Además, como describe Spiegelhalter (2004), se pueden utilizar diferentes priores, por ejemplo "pesimistas" que expresan dudas sobre los grandes efectos, o "entusiastas" que son optimistas sobre los efectos estimados. Comparar cómo se comportan los diferentes priores con sus datos puede ayudar a evaluar de manera informal el grado en que la posterior fue influenciada por el prior.


Spiegelhalter, D. J. (2004). Incorporación de las ideas bayesianas a la evaluación de la atención sanitaria. Ciencia Estadística, 156-174.

Gelman, A., Carlin, J. B., Stern, H. S., y Rubin, D. B. (2004). Análisis bayesiano de datos. Chapman & Hall/CRC.

Gelman, A. y Hill, J. (2006). Análisis de datos mediante modelos de regresión y multinivel/jerárquicos. Cambridge University Press.

Gelman, A., Meng, X. L., y Stern, H. (1996). Evaluación predictiva posterior de la aptitud del modelo mediante discrepancias realizadas. Statistica sinica, 733-760.

14voto

Zachary Blumenfeld Puntos 1543

Al realizar la inferencia bayesiana, operamos maximizando nuestra función de verosimilitud en combinación con las preconcepciones que tenemos sobre los parámetros.

En realidad, esto no es lo que la mayoría de los profesionales consideran como inferencia bayesiana. Es posible estimar los parámetros de esta manera, pero yo no lo llamaría inferencia bayesiana.

Bayesiano inferencia utiliza las distribuciones posteriores para calcular las probabilidades posteriores (o cocientes de probabilidades) de las hipótesis que compiten entre sí.

Las distribuciones posteriores pueden ser estimado empíricamente mediante técnicas de Monte Carlo o Markov-Chain Monte Carlo (MCMC).

Dejando de lado estas distinciones, la cuestión

¿Los priores bayesianos se vuelven irrelevantes con un tamaño de muestra grande?

sigue dependiendo del contexto del problema y de lo que le interese.

Si lo que te interesa es la predicción dada una muestra ya muy grande, entonces la respuesta es generalmente sí, los priores son asintóticamente irrelevante*. Sin embargo, si lo que te interesa es la selección de modelos y la prueba de hipótesis bayesiana, entonces la respuesta es no, los priores importan mucho, y su efecto no se deteriorará con el tamaño de la muestra.

*Aquí, estoy asumiendo que las priores no están truncadas/censuradas más allá del espacio de parámetros implicado por la verosimilitud, y que no están tan mal especificadas como para causar problemas de convergencia con una densidad cercana a cero en regiones importantes. Mi argumento es también asintótico, lo que conlleva todas las advertencias habituales.

Densidades predictivas

A modo de ejemplo, dejemos que $\mathbf{d}_N = (d_1, d_2,...,d_N)$ sean sus datos, donde cada $d_i$ significa una observación. Dejemos que la probabilidad se denote como $f(\mathbf{d}_N\mid \theta)$ , donde $\theta$ es el vector de parámetros.

Entonces, supongamos que también especificamos dos priores distintos $\pi_0 (\theta \mid \lambda_1)$ y $\pi_0 (\theta \mid \lambda_2)$ que se diferencian por el hiperparámetro $\lambda_1 \neq \lambda_2$ .

Cada prioridad dará lugar a diferentes distribuciones posteriores en una muestra finita, $$ \pi_N (\theta \mid \mathbf{d}_N, \lambda_j) \propto f(\mathbf{d}_N\mid \theta)\pi_0 ( \theta \mid \lambda_j)\;\;\;\;\;\mathrm{for}\;\;j=1,2 $$

Dejar $\theta^*$ sea el valor del parámetro suito verdadero, $\theta^{j}_N \sim \pi_N(\theta\mid \mathbf{d}_N, \lambda_j)$ y $\hat \theta_N = \max_\theta\{ f(\mathbf{d}_N\mid \theta) \}$ es cierto que $\theta^{1}_N$ , $\theta^{2}_N$ y $\hat \theta_N$ convergerán en probabilidad a $\theta^*$ . Dicho de manera más formal, para cualquier $\varepsilon >0$ ;

$$ \begin{align} \lim_{N \rightarrow \infty} Pr(|\theta^j_N - \theta^*| \ge \varepsilon) &= 0\;\;\;\forall j \in \{1,2\} \\ \lim_{N \rightarrow \infty} Pr(|\hat \theta_N - \theta^*| \ge \varepsilon) &= 0 \end{align} $$

Para ser más coherentes con su procedimiento de optimización, podríamos definir alternativamente $\theta^j_N = \max_\theta \{\pi_N (\theta \mid \mathbf{d}_N, \lambda_j)\} $ y aunque este parámetro es muy diferente a la definida anteriormente, la asíntota anterior sigue siendo válida.

De ello se deduce que las densidades de predicción, que se definen como $f(\tilde d \mid \mathbf{d}_N, \lambda_j) = \int_{\Theta} f(\tilde d \mid \theta,\lambda_j,\mathbf{d}_N)\pi_N (\theta \mid \lambda_j,\mathbf{d}_N)d\theta$ en un enfoque bayesiano adecuado o $f(\tilde d \mid \mathbf{d}_N, \theta^j_N)$ utilizando la optimización, convergen en la distribución a $f(\tilde d\mid \mathbf{d}_N, \theta^*)$ . Por lo tanto, en términos de predicción de nuevas observaciones condicionadas a una muestra ya muy grande, la especificación previa no supone ninguna diferencia asintóticamente .

Selección de modelos y comprobación de hipótesis

Si uno está interesado en la selección de modelos bayesianos y en las pruebas de hipótesis, debe ser consciente de que el efecto de la prioridad no desaparece asintóticamente.

En un entorno bayesiano, calcularíamos las probabilidades posteriores o los factores de Bayes con probabilidades marginales. Una probabilidad marginal es la probabilidad de los datos dado un modelo, es decir $f(\mathbf{d}_N \mid \mathrm{model})$ .

El factor de Bayes entre dos modelos alternativos es la relación de sus probabilidades marginales; $$ K_N = \frac{f(\mathbf{d}_N \mid \mathrm{model}_1)}{f(\mathbf{d}_N \mid \mathrm{model}_2)} $$ La probabilidad posterior de cada modelo en un conjunto de modelos también puede calcularse a partir de sus probabilidades marginales; $$ Pr(\mathrm{model}_j \mid \mathbf{d}_N) = \frac{f(\mathbf{d}_N \mid \mathrm{model}_j)Pr(\mathrm{model}_j)}{\sum_{l=1}^L f(\mathbf{d}_N \mid \mathrm{model}_l)Pr(\mathrm{model}_l)} $$ Se trata de métricas útiles para comparar modelos.

Para los modelos anteriores, las probabilidades marginales se calculan como $$ f(\mathbf{d}_N \mid \lambda_j) = \int_{\Theta} f(\mathbf{d}_N \mid \theta, \lambda_j)\pi_0(\theta\mid \lambda_j)d\theta $$

Sin embargo, también podemos pensar en añadir secuencialmente observaciones a nuestra muestra, y escribir la probabilidad marginal como una cadena de probabilidades de predicción ; $$ f(\mathbf{d}_N \mid \lambda_j) = \prod_{n=0}^{N-1} f(d_{n+1} \mid \mathbf{d}_n , \lambda_j) $$ De lo anterior sabemos que $f(d_{N+1} \mid \mathbf{d}_N , \lambda_j)$ converge a $f(d_{N+1} \mid \mathbf{d}_N , \theta^*)$ pero generalmente no es cierto que $f(\mathbf{d}_N \mid \lambda_1)$ converge a $f(\mathbf{d}_N \mid \theta^*)$ ni converge a $f(\mathbf{d}_N \mid \lambda_2)$ . Esto debería ser evidente dada la notación del producto anterior. Mientras que los últimos términos del producto serán cada vez más similares, los términos iniciales serán diferentes, por lo que el factor de Bayes $$ \frac{f(\mathbf{d}_N \mid \lambda_1)}{ f(\mathbf{d}_N \mid \lambda_2)} \not\stackrel{p}{\rightarrow} 1 $$ Esto es un problema si queremos calcular un factor de Bayes para un modelo alternativo con diferente probabilidad y prioridad. Por ejemplo, consideremos la probabilidad marginal $h(\mathbf{d}_N\mid M) = \int_{\Theta} h(\mathbf{d}_N\mid \theta, M)\pi_0(\theta\mid M) d\theta$ Entonces $$ \frac{f(\mathbf{d}_N \mid \lambda_1)}{ h(\mathbf{d}_N\mid M)} \neq \frac{f(\mathbf{d}_N \mid \lambda_2)}{ h(\mathbf{d}_N\mid M)} $$ asintóticamente o no. Lo mismo puede demostrarse para las probabilidades posteriores. En este contexto, la elección de la prioridad afecta significativamente a los resultados de la inferencia, independientemente del tamaño de la muestra.

8voto

Cliff AB Puntos 3213

Otra cuestión a tener en cuenta es que se puede tener un montón de datos pero todavía tienen muy poco información sobre ciertos parámetros de su modelo. En estos casos, incluso una previa medianamente informativa puede ser extremadamente útil a la hora de realizar la inferencia.

Como ejemplo tonto, supongamos que estamos comparando las medias de dos grupos y tenemos 1.000.000 de muestras del grupo 1 y 10 muestras del grupo 2. Entonces está claro que tener una previa informativa sobre el grupo 2 puede mejorar la inferencia, aunque hayamos recogido más de un millón de muestras.

Y aunque este ejemplo puede ser trivial, empieza a tener implicaciones muy importantes. Si queremos entender algún fenómeno complejo, lo más inteligente es recoger mucha información sobre las partes que no entendemos y menos información sobre las partes que sí entendemos. Si recogemos muchos datos de esta manera, descartar lo anterior porque tenemos muchos datos es una muy mala elección; ¡acabamos de retrasar nuestro análisis por no haber perdido el tiempo recogiendo datos sobre cosas que ya conocemos!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X