54 votos

Interpretaciones bayesianas y frecuentistas de la probabilidad

¿Puede alguien dar un buen resumen de las diferencias entre el enfoque bayesiano y el frecuentista de la probabilidad?

Por lo que tengo entendido:

El punto de vista de los frecuentistas es que los datos son una muestra aleatoria repetible (variable aleatoria) con una frecuencia/probabilidad específica (que se define como la frecuencia relativa de un evento a medida que el número de ensayos se acerca al infinito). Los parámetros y las probabilidades subyacentes permanecen constantes durante este proceso repetitivo y que la variación se debe a la variabilidad en $X_n$ y no la distribución de probabilidad (que se fija para un determinado evento/proceso).

El punto de vista bayesiano es que el datos es fija mientras que la frecuencia/probabilidad de un determinado evento puede cambiar, lo que significa que los parámetros de la distribución cambian. En efecto, los datos que se obtienen cambian la distribución previa de un parámetro que se actualiza para cada conjunto de datos.

A mí me parece que el enfoque frecuentista es más práctico/lógico ya que parece razonable que los eventos tengan una probabilidad específica y que la variación esté en nuestro muestreo.

Además, la mayoría de los análisis de datos de los estudios suelen realizarse con el enfoque frecuentista (es decir, intervalos de confianza, pruebas de hipótesis con valores p, etc.), ya que es fácilmente comprensible.

Me preguntaba si alguien podría darme un resumen rápido de su interpretación del enfoque bayesiano frente al frecuentista, incluyendo los equivalentes estadísticos bayesianos del valor p y el intervalo de confianza frecuentista. Además, se agradecerían ejemplos concretos de los casos en los que un método sería preferible al otro.

3 votos

En algunos lugares serás atacado por una turba furiosa si dices que el enfoque frecuentista de la inferencia estadística es más práctico. (De acuerdo, tal vez haya algunos hipérbole en esa afirmación). No estoy de acuerdo en que los intervalos de confianza sean más fáciles de entender que los intervalos de probabilidad posteriores. (De todos modos, véase mi respuesta más abajo. Creo que llega directamente a la esencia del asunto, aunque no hay matemáticas más allá de saber qué $1/2$ es).

0 votos

@DilipSarwate ay, lo tendré en cuenta para la próxima vez. pero parece que esta vez he conseguido unas cuantas respuestas buenas así que quizá intente acabar aquí :D

1 votos

43voto

Adrian Puntos 440

En el frecuentista se afirma que el único sentido que tienen las probabilidades es el del valor límite del número de aciertos en una secuencia de ensayos, es decir, como

$$p = \lim_{n\to\infty} \frac{k}{n}$$

donde $k$ es el número de aciertos y $n$ es el número de ensayos. En particular, no tiene ningún sentido asociar una distribución de probabilidad con un parámetro .

Por ejemplo, considere las muestras $X_1, \dots, X_n$ de la distribución Bernoulli con parámetro $p$ (es decir, tienen valor 1 con probabilidad $p$ y 0 con probabilidad $1-p$ ). Podemos definir el porcentaje de éxito de la muestra para ser

$$\hat{p} = \frac{X_1+\cdots +X_n}{n}$$

y hablar de la distribución de $\hat{p}$ condicionado al valor de $p$ pero no tiene sentido invertir la pregunta y empezar a hablar de la distribución de probabilidad de $p$ condicionado al valor observado de $\hat{p}$ . En concreto, esto significa que cuando calculamos un intervalo de confianza, interpretamos los extremos del intervalo de confianza como variables aleatorias, y hablamos de "la probabilidad de que el intervalo incluya el parámetro verdadero", en lugar de "la probabilidad de que el parámetro esté dentro del intervalo de confianza".

En el Bayesiano interpretamos las distribuciones de probabilidad como una cuantificación de nuestra incertidumbre sobre el mundo. En concreto, esto significa que ahora podemos hablar con sentido de las distribuciones de probabilidad de los parámetros, ya que aunque el parámetro sea fijo, nuestro conocimiento de su valor real puede ser limitado. En el ejemplo anterior, podemos invertir la distribución de probabilidad $f(\hat{p}\mid p)$ utilizando la ley de Bayes, para dar

$$\overbrace{f(p\mid \hat{p})}^\text{posterior} = \underbrace{\frac{f(\hat{p}\mid p)}{f(\hat{p})}}_\text{likelihood ratio} \overbrace{f(p)}^\text{prior}$$

El inconveniente es que hay que introducir el antes de la distribución en nuestro análisis - esto refleja nuestra creencia sobre el valor de $p$ antes de ver los valores reales del $X_i$ . El papel de la prioridad es a menudo criticado en el enfoque frecuentista, ya que se argumenta que introduce la subjetividad en el mundo de la probabilidad, que de otro modo sería austero y objetual.

En el enfoque bayesiano ya no se habla de intervalos de confianza, sino de intervalos creíbles, que tienen una interpretación más natural: dado un intervalo creíble del 95%, podemos asignar una probabilidad del 95% de que el parámetro esté dentro del intervalo.

8 votos

Por otra parte, una de las críticas al enfoque frecuentista es que no se ajusta a la forma en que la gente piensa en la probabilidad. Pensemos en cómo se habla de la "probabilidad" de sucesos puntuales como la extinción de los dinosaurios, o de la "probabilidad" de "certezas" como que el sol salga mañana...

19 votos

También sería bueno mencionar que la brecha entre los enfoques frecuentista y bayesiano no es tan grande a nivel práctico: cualquier método frecuentista que produzca resultados útiles y autoconsistentes puede generalmente recibir una interpretación bayesiana, y viceversa . En particular, la refundición de un cálculo frecuentista en términos bayesianos suele dar lugar a una regla de cálculo de la probabilidad posterior dado algún tipo de antecedente específico . Uno puede entonces preguntarse "Bueno, ¿es ese previo realmente razonable de asumir?"

0 votos

Gracias por esta respuesta, coincide con mi idea general. Sin embargo, me preguntaba si podría aclarar una cosa, ¿cómo encontrar la probabilidad de la tasa de éxito de los datos/muestra (f (p-hat)) en la fórmula de la ley de Baye? He leído algunos ejemplos trabajados y en general entiendo cómo derivar f(p-hat | p) y la f(p) a priori, pero f(p-hat) se me escapa hasta ahora. Si tuvieras algún enlace a algún recurso sería estupendo :D. Gracias.

24voto

Trevor Boyd Smith Puntos 133

La interpretación bayesiana de la probabilidad es una interpretación de grado de creencia.

Un bayesiano puede decir que la probabilidad de que hubiera vida en Marte hace mil millones de años es $1/2$ .

Un frecuentista se negará a asignar una probabilidad a esa proposición. No es algo que pueda decirse que es verdadero en la mitad de los casos, por lo que no se puede asignar probabilidad $1/2$ .

3 votos

Probablemente no hay mejor lugar para reflexionar sobre las limitaciones del enfoque frecuentista más estrecho frente a la generalidad del enfoque bayesiano (extensión de la lógica) que el papel clásico por R. T. Cox.

2 votos

Cox también escribió un libro sobre esto, titulado Álgebra de la Inferencia Probable publicado por Johns Hopkins. @gwr $\qquad$

1 votos

Ian Hacking lo dijo muy bien en su libro "An Introduction to Probability and Inductive Logic". Dijo: "El bayesiano es capaz de atribuir probabilidades personales, o grados de creencia, a proposiciones individuales. El dogmático de la frecuencia de la línea dura piensa que las probabilidades sólo se pueden adjuntar a una serie de eventos".

23voto

Jacob Puntos 31

Tienes razón en tu interpretación de la probabilidad frecuentista: la aleatoriedad en esta configuración se debe simplemente a un muestreo incompleto. Desde el punto de vista bayesiano, las probabilidades son "subjetivas", en el sentido de que reflejan la incertidumbre de un agente sobre el mundo. No es del todo correcto decir que los parámetros de las distribuciones "cambian". Como no tenemos información completa sobre los parámetros, nuestra incertidumbre sobre ellos cambia a medida que reunimos más información.

Ambas interpretaciones son útiles en las aplicaciones, y cuál es más útil depende de la situación. Puede consultar Andrew Gelman's blog para obtener ideas sobre las aplicaciones bayesianas. En muchas situaciones, lo que los bayesianos llaman "priors", los frecuentistas lo llaman "regularización", por lo que (desde mi punto de vista) la emoción puede abandonar la habitación con bastante rapidez. De hecho, según el teorema de Bernstein-von Mises, la inferencia bayesiana y frecuentista son en realidad asintóticamente equivalentes bajo supuestos bastante débiles (aunque en particular el teorema falla para distribuciones de dimensión infinita). Puede encontrar un montón de referencias sobre esto aquí .

Ya que has pedido interpretaciones: Creo que el punto de vista frecuencial tiene mucho sentido a la hora de modelar experimentos científicos, tal y como fue diseñado. Para algunas aplicaciones en el aprendizaje automático o para modelar el razonamiento inductivo (o el aprendizaje), la probabilidad bayesiana tiene más sentido para mí. Hay muchas situaciones en las que modelar un evento con una probabilidad fija y "verdadera" parece poco plausible.

Para un juguete ejemplo volviendo a Laplace Considera la probabilidad de que el sol salga mañana. Desde la perspectiva frecuencial, tenemos que plantear algo así como infinitos universos para definir la probabilidad. Como bayesianos, sólo hay un universo (o al menos, no tiene por qué haber muchos). Nuestra incertidumbre sobre la salida del sol se ve aplastada por nuestra muy, muy fuerte creencia previa de que volverá a salir mañana.

9voto

mat_geek Puntos 1367

Chris da una bonita explicación simplista que diferencia adecuadamente los dos enfoques de la probabilidad. Pero la teoría frecuentista de la probabilidad es algo más que mirar la proporción de aciertos a largo plazo. También consideramos datos muestreados al azar de una distribución y estimamos los parámetros de la distribución, como la media y la varianza, tomando ciertos tipos de promedios de los datos (por ejemplo, para la media es la media aritmética de las observaciones. La teoría frecuentista asocia una probabilidad a la estimación que se denomina distribución muestral.

En la teoría de las frecuencias somos capaces de demostrar, para parámetros como la media que se toman promediando de las muestras, que la estimación convergerá al parámetro verdadero. La distribución de muestreo se utiliza para describir la proximidad de la estimación al parámetro para cualquier tamaño de muestra fijo n. La proximidad se define mediante una medida de precisión (por ejemplo, el error cuadrático medio).

En Chris señala que para cualquier parámetro, como la media, el bayesiano asigna una distribución de probabilidad a priori sobre él. Entonces, dados los datos, se utiliza la regla de Bayes para calcular una distribución posterior del parámetro. Para el bayesiano, toda la inferencia sobre el parámetro se basa en esta distribución posterior.

Los frecuentistas construyen intervalos de confianza que son intervalos de valores plausibles para el parámetro. Su construcción se basa en la probabilidad frecuentista de que, si el proceso utilizado para generar el intervalo se repitiera muchas veces para muestras independientes, la proporción de intervalos que incluiría realmente el valor verdadero del parámetro sería al menos de un nivel de confianza preestablecido (por ejemplo, el 95%).

Los bayesianos utilizan la distribución a posteriori del parámetro para construir regiones creíbles. Se trata simplemente de regiones en el espacio de los parámetros sobre las que se integra la distribución posterior para obtener una probabilidad preestablecida (por ejemplo, 0,95). Los bayesianos interpretan las regiones creíbles como regiones que tienen una alta probabilidad (por ejemplo, el 0,95 preestablecido) de incluir el valor verdadero del parámetro.

2 votos

Los bayesianos interpretan las regiones creíbles como aquellas que tienen una alta probabilidad (por ejemplo, el 0,95 preestablecido) de incluir el valor verdadero del parámetro . ¿Cómo es esto posible si el parámetro es una variable aleatoria?

1 votos

@Procrastinator De acuerdo, tal vez prefieras que sólo diga que cubre una alta proporción preestablecida de la distribución de parámetros. Pero si X es una variable aleatoria con una distribución f y construimos una región creíble para ella entonces la región sí representa la probabilidad de que una realización de la variable aleatoria se encuentre en la región.

1 votos

Estoy de acuerdo con esta explicación. Es importante aclarar que una realización de la variable aleatoria no es el verdadero valor del parámetro.

3voto

lpofredc Puntos 43

Desde el punto de vista del "mundo real", encuentro una diferencia importante entre una "solución" frecuentista y una clásica o bayesiana que se aplica al menos a tres escenarios principales. La diferencia a la hora de seleccionar una metodología depende de si se necesita una solución que se vea afectada por la probabilidad de la población, o una que se vea afectada por la probabilidad individual. A continuación, algunos ejemplos:

  1. Si se sabe que hay un 5% de probabilidades de que los varones mayores de 40 años mueran en un año determinado y requieran el pago de un seguro de vida, una compañía de seguros puede utilizar el porcentaje del 5% de la población para estimar sus costes, pero decir que cada varón individual mayor de 40 años sólo tiene un 5% de probabilidades de morir... no tiene sentido... Porque el 5% tiene un 100% de probabilidades de morir, lo cual es un enfoque frecuentista. A nivel individual, el acontecimiento se produce (100% de probabilidad) o no se produce (0% de probabilidad). Sin embargo, basándose en esta información limitada, no es posible predecir los individuos que tienen un 100% de probabilidad de morir, y el 5% de probabilidad "promediada" de la población es inútil a nivel individual.

  2. El argumento anterior se aplica igualmente a los incendios en edificios, razón por la cual los rociadores son obligatorios en todos los edificios de una población.

  3. Los dos argumentos anteriores se aplican igualmente a las violaciones, daños o "hackeos" de los sistemas de información. Los porcentajes de población no sirven para nada, por lo que hay que salvaguardar todos los sistemas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X