5 votos

La navaja de Ockham en los modelos bayesianos

Esta pregunta puede ser un poco filosófica / generar discusión. Espero que haya algunas respuestas útiles.

Actualmente estoy pensando en cómo se relaciona la Navaja de Ockham con las pruebas estadísticas bayesianas. He descubierto que, a menudo, la navaja de Ockham se implementa mediante priores en modelos de diferente complejidad ( este documento atribuye la idea a Jeffreys).

Sin embargo, en la estadística bayesiana, un método común para la selección de modelos es hacer que una variable aleatoria discreta "cambie" entre cada uno de los modelos, y luego utilizar la posterior resultante de esa variable discreta para obtener las probabilidades. Esto equivale a comparar las integrales (a menudo intratables) sobre los espacios de parámetros de los modelos (ponderados por las priores de los parámetros).

Por eso, al hacer la selección bayesiana de modelos, éstos se ven automáticamente penalizados por su complejidad. Esto es simplemente así, porque para los modelos más complejos estamos integrando sobre un espacio de parámetros mucho más grande y complejo, y la mayoría de los elementos de este espacio de parámetros no se ajustan a las observaciones.

Se trata de las mismas Ideas, que se pueden encontrar en el el papel anterior . En este caso, la Navaja de Ockham NO es implementada por los priores, sino que resulta automáticamente y se manifiesta en la posterioridad. Pero, ¿es esto suficiente para explicar la diferente complejidad del modelo?

Por ejemplo, si tengo dos conjuntos de ensayos Bernoulli con muestras repetidas, por ejemplo $Y_{1,i}=(1,1,0,1,1,...)$ y $Y_{2,i}=(0,0,1,0,0,...)$ sería posible probar si $Y_1$ y $Y_2$ se generan con la misma probabilidad (H1) o con distinta probabilidad (H2). Dadas suficientes muestras de $Y_1$ y $Y_2$ debería ser posible construir una situación en la que $P(H1|D)=P(H2|D)$ (asumiendo iguales probabilidades previas de H1 y H2). Sin embargo, dado que H1 sólo tiene un parámetro, mientras que H2 tiene dos, ¿debería tomarse esto realmente como una evidencia, que ambos son igualmente probables?

0 votos

Los factores de Bayes son consistentes, por lo que se trata de un argumento para tener en cuenta la complejidad con razón...

2voto

Aaron Puntos 36

Por lo tanto, al realizar la selección bayesiana de modelos, éstos se penalizan automáticamente por su complejidad. Esto es simplemente así, porque para los modelos más complejos estamos integrando sobre un espacio de parámetros mucho más grande y complejo, y la mayoría de los elementos de este espacio de parámetros no se ajustan a las observaciones.

... La Navaja de Ockham NO es implementada por los priores, sino que resulta automáticamente y se manifiesta en el posterior. Pero, ¿es esto suficiente para explicar la diferente complejidad del modelo?

Te estás acercando, pero esto no es del todo correcto. Al menos dos de los ejemplos de Jefferys y Berger (1991) (el artículo enlazado) implican casos en los que tanto el modelo simple como el complejo consisten en una única especificación de la distribución muestral y no tienen parámetros libres (es decir, ambos son hipótesis simples). Tanto en el ejemplo del lanzamiento de la moneda como en el del plagio, hay un modelo simple con una distribución de masa puntual para los datos, y un modelo más complejo que da una distribución de muestreo más difusa para los datos. En estos casos, el modelo complejo no tiene un espacio de parámetros mayor que el modelo más simple. Los autores muestran que incluso en esta situación, mientras los datos observados no falsifiquen el modelo simple, incluso cuando ambos modelos no tienen parámetros libres, el modelo complejo emerge con menor probabilidad posterior debido a la mayor difusión de la distribución muestral .

En general, si dos clases de modelos se consideran igualmente probables a priori entonces la probabilidad posterior más baja para una de esas clases de modelos (por ejemplo, el complejo) sólo puede surgen porque la probabilidad tiende a ser menor bajo esa clase de modelo (en un sentido que se hace más riguroso a continuación). Esto no es una cuestión del tamaño del espacio de parámetros del modelo por sí mismo pero en realidad es una cuestión del tamaño medio de la probabilidad en el espacio de los parámetros. Es algo artificial separar el tamaño del espacio de parámetros bajo la clase de modelo de la función de verosimilitud sobre ese espacio, ya que esta última sólo existe sobre el primer espacio. Sin embargo, si se tiene un modelo "simple" y un modelo "complejo", y una observación que es razonablemente consistente con el primero, eso tenderá a ocurrir en los casos en que la probabilidad sea alta para el primero y baja para el segundo.


Análisis de la Navaja de Ockham en el análisis bayesiano: La comparación de dos clases de modelos en el análisis bayesiano puede hacerse considerándolos como especificaciones de espacios de parámetros en una clase general de modelos, y asignando una prioridad que es una distribución mixta de prioridades condicionales sobre las dos clases. Para entender bien este análisis es útil distinguir entre las probabilidades a priori asignadas a las dos clases de modelos frente a las distribuciones a priori sobre el modelos individuales dentro de esas clases. Ambas cosas son aspectos de la prioridad general. Para formalizar esta distinción, supongamos que tenemos un modelo global con un espacio de parámetros $\Theta = \Theta_0 \cup \Theta_A$ y sus clases de modelos pueden ser especificados por los espacios de parámetros:

$$\begin{equation} \begin{aligned} \text{Simple model }(H_0) & & \theta &\in \Theta_0, \\[6pt] \text{Complex model }(H_A) & & \theta &\in \Theta_A. \\[6pt] \end{aligned} \end{equation}$$

(Sin pérdida de generalidad, podemos considerar que estos espacios son disjuntos. Si el modelo complejo abarca el modelo más simple, o se solapa con él, consideramos que los puntos de intersección sólo forman parte del modelo más simple). Cualquier prioridad sobre todo el espacio de parámetros puede descomponerse mediante el método ley de probabilidad total en:

$$\pi(\theta) = \delta \pi_0(\theta) + (1-\delta) \pi_A(\theta),$$

donde $\delta = \mathbb{P}(H_0)$ es la probabilidad a priori del modelo simple, y $\pi_0(\theta) = p(\theta|H_0)$ y $\pi_A(\theta) = p(\theta|H_A)$ son las respectivas distribuciones a priori para el parámetro bajo los modelos simple y complejo. Esto formula la prioridad global como una mezcla de prioridades condicionales sobre las dos clases de modelos. Bajo esta especificación, la probabilidad posterior de que los datos provengan del modelo simple es:

$$\begin{equation} \begin{aligned} \mathbb{P}(H_0|\mathbf{x}) &= \frac{\int_{\Theta_0} L_\mathbf{x}(\theta) \pi(\theta) d\theta}{\int_{\Theta} L_\mathbf{x}(\theta) \pi(\theta) d\theta} \\[6pt] &= \frac{\delta \int L_\mathbf{x}(\theta) \pi_0(\theta) d\theta}{\delta \int L_\mathbf{x}(\theta) \pi_0(\theta) d\theta + (1-\delta) \int L_\mathbf{x}(\theta) \pi_A(\theta) d\theta} \\[6pt] &= \frac{\delta \mathbb{E}(L_\mathbf{x}(\theta) |H_0)}{\delta \mathbb{E}(L_\mathbf{x}(\theta) |H_0) + (1-\delta) \mathbb{E}(L_\mathbf{x}(\theta) |H_A)}. \\[6pt] \end{aligned} \end{equation}$$

Si ponemos $\delta = \tfrac{1}{2}$ para no favorecer a ninguna de las dos clases de modelos a priori tenemos:

$$\begin{equation} \begin{aligned} \mathbb{P}(H_0|\mathbf{x}) &= \frac{\mathbb{E}(L_\mathbf{x}(\theta) |H_0)}{\mathbb{E}(L_\mathbf{x}(\theta) |H_0) + \mathbb{E}(L_\mathbf{x}(\theta) |H_A)}. \\[6pt] \end{aligned} \end{equation}$$

(La probabilidad posterior correspondiente para el modelo complejo es uno menos esta cantidad, que sustituye el numerador por el segundo término del denominador). Podemos ver fácilmente a partir de este resultado que la probabilidad posterior de las dos clases de modelos está determinada por los tamaños relativos del valor de la probabilidad esperada bajo esas clases. El tamaño del espacio de parámetros bajo una clase de modelo sólo afecta a éste en la medida en que afecta a la probabilidad esperada bajo la clase de modelo. Por lo tanto, si ampliamos el espacio de una clase de modelo, el efecto sobre la posterioridad depende de cómo extendemos la función de verosimilitud (a través de la densidad de muestreo) sobre este espacio más grande.

Matemáticamente, podemos ver que la probabilidad posterior de las clases del modelo en este caso depende sólo sobre la probabilidad esperada bajo las clases. Esto no es más que una reiteración del hecho de que las comparaciones de modelos en el análisis bayesiano están totalmente determinadas por las probabilidades a priori de los modelos, y Factor de Bayes (que no es más que el cociente de las probabilidades esperadas). En la práctica, suele ocurrir (aunque no siempre) que los modelos más complejos utilizan un espacio de parámetros más amplio, y si obtenemos datos que son razonablemente coherentes con el modelo simple, la función de verosimilitud del modelo complejo es pequeña en la mayor parte de este espacio más amplio. Esto crea una "penalización" natural de los modelos complejos en los casos en que los datos son razonablemente coherentes con un modelo más simple.


$^\dagger$ Procederemos sin pérdida de generalidad aquí, pero vale la pena señalar que a menudo el modelo más simple será una subclase del modelo complejo, que fija algunos de los parámetros a cero, produciendo así un espacio de parámetros efectivo de menor dimensión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X