20 votos

¿En qué mejora la interpretación del marco bayesiano cuando solemos utilizar priores no informativos o subjetivos?

A menudo se argumenta que el marco bayesiano tiene una gran ventaja en la interpretación (sobre el frecuentista), porque calcula la probabilidad de un parámetro dados los datos -. $p(\theta|x)$ en lugar de $p(x|\theta)$ como en el marco frecuentista. Hasta aquí todo bien.

Pero, toda la ecuación en la que se basa:

$p(\theta|x) = {p(x|\theta) . p(\theta) \over p(x)}$

me parece poco sospechoso por 2 razones:

  1. En muchos trabajos, se utilizan habitualmente priors no informativos (distribuciones uniformes) y luego sólo $p(\theta|x) = p(x|\theta)$ Así pues, los bayesianos obtienen el mismo resultado que los frecuentistas, pero ¿cómo es que el marco bayesiano es mejor en interpretación, cuando la probabilidad posterior bayesiana y la probabilidad frecuentista son las mismas distribuciones? Simplemente se obtiene el mismo resultado.

  2. Cuando se utilizan priores informativos, se obtienen resultados diferentes, pero el bayesiano se ve afectado por el prior subjetivo, por lo que todo el $p(\theta|x)$ también tiene el matiz subjetivo.

En otras palabras, todo el argumento de $p(\theta|x)$ siendo mejor en interpretación que $p(x|\theta)$ se basa en la presunción de que $p(\theta)$ es una especie de "real", que normalmente no lo es, es sólo un punto de partida que de alguna manera elegimos para hacer correr el MCMC, una presunción, pero no es una descripción de la realidad (no se puede definir creo).

Entonces, ¿cómo podemos argumentar que la interpretación bayesiana es mejor?

16voto

bheklilr Puntos 113

Para dar una respuesta más limitada que las excelentes que ya se han publicado, y centrarme en la ventaja de la interpretación, la interpretación bayesiana de un, por ejemplo, "intervalo creíble del 95 %" es que la probabilidad de que el verdadero valor del parámetro se encuentre dentro del intervalo es igual al 95 %. Una de las dos interpretaciones frecuentistas comunes de un, por ejemplo, "intervalo de confianza del 95%", aunque numéricamente los dos sean idénticos, es que a largo plazo, si realizáramos el procedimiento muchas muchas veces, la frecuencia con la que el intervalo cubriría el valor real convergería al 95%. Lo primero es intuitivo, lo segundo no. Intente explicarle alguna vez a un directivo que no puede decir "La probabilidad de que nuestros paneles solares se degraden menos de un 20% a lo largo de 25 años es del 95%", sino que debe decir "Si la tasa de degradación real fuera del 20% a lo largo de 25 años, y pudiéramos repetir de algún modo nuestro muestreo pero con resultados diferentes bla bla bla universos idénticos paralelos bla bla, la frecuencia a largo plazo de veces que el intervalo de confianza unilateral que yo calcularía se situaría totalmente por debajo del 20%/25 años sería del 5%", o cualquiera que fuera la afirmación frecuentista equivalente.

Una interpretación frecuentista alternativa sería: "Antes de generar los datos, había un 5% de probabilidades de que el intervalo que calculara con el procedimiento elegido quedara totalmente por debajo del valor verdadero del parámetro". Sin embargo, ahora que hemos recopilado los datos, no podemos hacer tal afirmación, porque no somos subjetivistas y la probabilidad es 0 o 1, dependiendo de si se sitúa o no totalmente por debajo del verdadero valor del parámetro." Eso ayudará con los auditores y a la hora de calcular una reserva de garantía. (En realidad, esta definición me parece razonable, aunque no suele ser útil; tampoco es fácil de entender intuitivamente, y menos si no eres estadístico).

Ninguna de las dos interpretaciones frecuentistas es intuitiva. La versión bayesiana sí lo es. De ahí la "gran ventaja interpretativa" del enfoque bayesiano.

14voto

John Richardson Puntos 1197

En mi opinión, la razón por la que la estadística bayesiana es "mejor" para la intepretación no tiene nada que ver con los priors, sino que se debe a la definición de probabilidad. La definición bayesiana (la verosimilitud relativa de la verdad de una proposición) se ajusta más a nuestro uso cotidiano de la palabra que la definición frecuentista (la frecuencia a largo plazo con la que ocurre algo). En la mayoría de las situaciones prácticas $p(\theta|x)$ es lo que realmente queremos saber, no $p(x|\theta)$ y la dificultad surge con la estadística frecuentista debido a la tendencia a interpretar los resultados de un cálculo frecuentista como si fuera bayesiano, es decir. $p(x|\theta)$ como si fuera $p(\theta|x)$ (por ejemplo, la falacia del valor p, o interpretar un intervalo de confianza como si fuera un intervalo creíble).

Nótese que los priors informativos no son necesariamente subjetivos, por ejemplo yo no consideraría conocimiento subjetivo afirmar que el conocimiento previo de algún sistema físico debería ser independiente de las unidades de medida (ya que son esencialmente arbitrarias), lo que lleva a la idea de grupos de transformación y priors "mínimamente informativos".

La otra cara de ignorar el conocimiento subjetivo es que el sistema puede no ser óptimo porque se ignora el conocimiento experto, así que la subjetividad no es necesariamente mala. Por ejemplo, en el problema habitual de "deducir el sesgo de una moneda", que se utiliza a menudo como ejemplo motivador, se aprende relativamente despacio con una premisa uniforme a medida que van llegando los datos. Pero, ¿es razonable suponer que todos los sesgos son igual de probables? No, es fácil fabricar una moneda ligeramente sesgada, o una completamente sesgada (dos caras o dos caras), así que si incorporamos esa suposición a nuestro análisis, a través de una premisa subjetiva, necesitaremos menos datos para identificar cuál es realmente el sesgo.

Los análisis frecuentistas también suelen contener elementos subjetivos (por ejemplo, la decisión de rechazar la hipótesis nula si el valor p es inferior a 0,05, no hay ninguna obligación lógica de hacerlo, es simplemente una tradición que ha demostrado ser útil). La ventaja del enfoque bayesiano es que la subjetividad se hace explícita en el cálculo, en lugar de dejarla implícita.

Al fin y al cabo, se trata de una cuestión de "caballos para los cursos", usted debe tener ambos conjuntos de herramientas en su caja de herramientas, y estar preparado para utilizar la mejor herramienta para la tarea en cuestión.

Dicho esto, el Bayesiano $\gg$ frecuentista !!! ;oP

6voto

patfla Puntos 1

El marco bayesiano tiene una gran ventaja sobre el frecuentista porque no depende de tener una "bola de cristal" para conocer los supuestos distribucionales correctos que hay que hacer. Los métodos bayesianos dependen de la información de que se disponga y de cómo codificarla en una distribución de probabilidad.

Utilizar métodos bayesianos es básicamente utilizar la teoría de la probabilidad en toda su potencia. El teorema de Bayes no es más que una reformulación de la regla del producto clásica de la teoría de la probabilidad:

$$p(\theta x|I)=p(\theta|I)p(x|\theta I)=p(x|I)p(\theta|xI)$$

Mientras $p(x|I)\neq 0$ (es decir, la información previa no decía que lo observado fuera imposible) podemos dividir por ella, y llegar a la teorema de bayes. Yo he utilizado $I$ para denotar la información previa, que siempre está presente: no se puede asignar una distribución de probabilidad sin información.

Ahora bien, si piensas que el teorema de Bayes es sospechoso, entonces lógicamente, también debes pensar que la regla del producto también es sospechosa. Puedes encontrar un argumento deductivo aquí que deriva las reglas del producto y de la suma, similar al teorema de Cox. Se puede encontrar una lista más explícita de los supuestos necesarios aquí .

Que yo sepa, la inferencia frecuentista no se basa en un conjunto de fundamentos dentro de un marco lógico. Dado que utiliza los axiomas de probabilidad de Kolmogorov, no parece existir ninguna conexión entre la teoría de la probabilidad y la inferencia estadística. No existen axiomas para la inferencia frecuentista que conduzcan a un procedimiento que deba seguirse. Existen principios y métodos (máxima verosimilitud, intervalos de confianza, valores p, etc.), y funcionan bien, pero tienden a ser aislados y especializados para problemas concretos. Creo que es mejor dejar los métodos frecuentistas vagos en sus fundamentos, al menos en lo que se refiere a un marco lógico estricto.

Para el punto $1$ obtener el mismo resultado es algo irrelevante, desde el punto de vista de la interpretación. Dos procedimientos pueden conducir al mismo resultado, pero esto no tiene por qué significar que sean equivalentes. Si tuviera que adivinar $\theta$ y resulta que adivino la estimación de máxima verosimilitud (MLE), esto no significa que mi estimación sea tan buena como la MLE.

Para el punto $2$ ¿por qué debería preocuparle que personas con información diferente lleguen a conclusiones diferentes? Alguien con un doctorado en matemáticas llegaría, y debería llegar, a conclusiones diferentes a las de alguien con un nivel de matemáticas de bachillerato. Tienen distinta información, ¿por qué esperar que coincidan? Cuando a uno le presentan información conocida, tiende a cambiar de opinión. El grado de cambio depende del tipo de información. El teorema de Bayes contiene esta característica, como debe ser.

Utilizar una priorización uniforme suele ser una aproximación conveniente cuando la probabilidad es alta en comparación con la priorización. A veces no merece la pena el esfuerzo que supone establecer correctamente una probabilidad a priori. Del mismo modo, no cometa el error de confundir la estadística bayesiana con MCMC. MCMC no es más que un algoritmo de integración, igual que la cuadratura guasiana, y de una clase similar a la aproximación de Laplace. Es un poco más útil que quadratre porque puedes reutilizar la salida del algoritmo para hacer todas tus integrales (las medias y varianzas posteriores son integrales), y un poco más general que Laplace porque no necesitas una muestra grande, o un pico bien redondeado en la posterior (aunque Laplace es más rápido).

3voto

sztanpet Puntos 179

Por lo general, he visto que se utiliza la priorización uniforme en ejemplos de tipo "instructivo" o en casos en los que no se sabe realmente nada sobre un hiperparámetro concreto. Típicamente, veo prioritarios no informados que proporcionan poca información sobre cuál será la solución, pero que codifican matemáticamente cómo es probablemente una buena solución. Por ejemplo, se suele ver una prioridad gaussiana ( $\mu=0$ ) colocado sobre un coeficiente de regresión, codificando el conocimiento de que, en igualdad de condiciones, preferimos las soluciones en las que los coeficientes tienen magnitudes más bajas. Se trata de evitar el sobreajuste de un conjunto de datos, encontrando soluciones que maximizan la función objetivo pero que no tienen sentido en el contexto particular de nuestro problema. En cierto sentido, proporcionan una forma de dar al modelo estadístico algunas "pistas" sobre un dominio concreto.

Sin embargo, éste no es (en mi opinión) el aspecto más importante de las metodologías bayesianas. Los métodos bayesianos son generativos, en el sentido de que proporcionan una "historia" completa de cómo surgieron los datos. Por tanto, no se limitan a encontrar patrones, sino que son capaces de tener en cuenta toda la realidad de la situación. Por ejemplo, consideremos el LDA (latent Dirichlet allocation), que proporciona una historia generativa completa de cómo surge un documento de texto, que es algo así:

  1. Seleccionar una combinación de temas basada en la probabilidad de que determinados temas coincidan.
  2. Seleccionar un conjunto de palabras del vocabulario, condicionado en función de los temas seleccionados.

Así pues, el modelo se ajusta basándose en una comprensión muy específica de los objetos del dominio (en este caso, documentos de texto) y de cómo se crearon; por lo tanto, la información que obtenemos se adapta directamente a nuestro dominio del problema (probabilidades de palabras dadas temas, probabilidades de temas que se mencionan juntos, probabilidades de documentos que contienen temas y en qué medida, etc.). El hecho de que el Teorema de Bayes sea necesario para ello es casi secundario, de ahí el chistecito: "Bayes no sería bayesiano, y Cristo no sería cristiano".

En resumen, los modelos bayesianos consisten en modelizar rigurosamente los objetos del dominio utilizando distribuciones de probabilidad; por lo tanto, somos capaces de codificar conocimientos que de otro modo no estarían disponibles con una simple técnica discriminativa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X