29 votos

¿Hay alguna diferencia entre los frecuentistas y los bayesianos en la definición de la probabilidad?

Algunas fuentes dicen que la función de probabilidad no es una probabilidad condicional, otras dicen que sí. Esto es muy confuso para mí.

Según la mayoría de las fuentes que he visto, la probabilidad de una distribución con parámetro $\theta$ debe ser un producto de funciones de masa de probabilidad dadas $n$ muestras de $x_i$ :

$$L(\theta) = L(x_1,x_2,...,x_n;\theta) = \prod_{i=1}^n p(x_i;\theta)$$

Por ejemplo, en la Regresión Logística, utilizamos un algoritmo de optimización para maximizar la función de verosimilitud (Estimación de Máxima Verosimilitud) para obtener los parámetros óptimos y, por tanto, el modelo LR final. Dada la $n$ muestras de entrenamiento, que suponemos independientes entre sí, queremos maximizar el producto de las probabilidades (o las funciones de masa de probabilidad conjuntas). Esto me parece bastante obvio.

Según Relación entre: Probabilidad, probabilidad condicional y tasa de fracaso La probabilidad no es una probabilidad y no es una probabilidad condicional". También menciona, "La probabilidad es una probabilidad condicional sólo en la comprensión bayesiana de la probabilidad, es decir, si se asume que $\theta$ es una variable aleatoria".

He leído sobre las diferentes perspectivas de tratamiento de un problema de aprendizaje entre los frecuentistas y los bayesianos.

Según una fuente, para la inferencia bayesiana, tenemos a priori $P(\theta)$ , probabilidad $P(X|\theta)$ y queremos obtener la posterior $P(\theta|X)$ utilizando el teorema bayesiano:

$$P(\theta|X)=\dfrac{P(X|\theta) \times P(\theta)}{P(X)}$$

No estoy familiarizado con la Inferencia Bayesiana. ¿Cómo es que $P(X|\theta)$ que es la distribución de los datos observados condicionada a sus parámetros, también se denomina probabilidad? En Wikipedia , dice que a veces se escribe $L(\theta|X)=p(X|\theta)$ . ¿Qué significa esto?

¿hay alguna diferencia entre las definiciones frecuentista y bayesiana sobre la probabilidad?

Gracias.


EDITAR:

Existen diferentes formas de interpretar el teorema de Bayes: la interpretación bayesiana y la interpretación frecuentista (Ver: Teorema de Bayes - Wikipedia ).

27voto

Aaron Puntos 36

No hay diferencia en la definición - en ambos casos, la función de verosimilitud es cualquier función del parámetro que es proporcional a la densidad de muestreo. En sentido estricto, no exigimos que la probabilidad sea igual a la densidad de muestreo; sólo es necesario que sea proporcional, lo que permite eliminar las partes multiplicativas que no dependen de los parámetros.

Mientras que la densidad de muestreo se interpreta como una función de los datos, condicionada a un valor específico del parámetro, la función de verosimilitud se interpreta como una función del parámetro para un vector de datos fijo. Así que en el caso estándar de los datos IID se tiene:

$$L_\mathbf{x}(\theta) \propto \prod_{i=1}^n p(x_i|\theta).$$

En la estadística bayesiana, solemos expresar el teorema de Bayes en su forma más sencilla como

$$\pi (\theta|\mathbf{x}) \propto \pi(\theta) \cdot L_\mathbf{x}(\theta).$$

Esta expresión para el teorema de Bayes subraya que sus dos elementos multiplicativos son funciones del parámetro, que es el objeto de interés en la densidad posterior. (Este resultado de proporcionalidad define completamente la regla, ya que la posterior es una densidad, y por tanto hay una única constante multiplicadora que la hace integrar a uno).

16voto

Lev Puntos 2212

El función de probabilidad se define fuera de $-$ o antes de $-$ el paradigma que se utiliza para la inferencia estadística, en función del parámetro $\theta$ que depende de $-$ o está indexado por $-$ las observaciones $x$ disponible para esta inferencia. Y también implícitamente por la familia de modelos de probabilidad elegida para representar la variabilidad o aleatoriedad en los datos. Para un valor del par $(\theta,x)$ es igual a la densidad del modelo en $x$ cuando se indexa con el parámetro $\theta$ . Lo que a menudo se traduce burdamente como la "probabilidad de los datos".

Para citar fuentes más autorizadas e históricas que una respuesta anterior en este foro,

"Podemos discutir la probabilidad de ocurrencia de cantidades que pueden observadas en relación con cualquier hipótesis que pueda sugerirse para explicar estas observaciones. No podemos saber nada de la probabilidad de las hipótesis . . . Podemos determinar la probabilidad de las hipótesis . . . mediante el cálculo a partir de las observaciones: . . hablar de la probabilidad . . de una cantidad observable no tiene sentido". R.A. Fisher, Sobre el "error probable" de un coeficiente de correlación deducido de una muestra pequeña . Metrón 1, 1921, p.25

y

"Lo que podemos encontrar a partir de una muestra es la probabilidad de cualquier valor particular de valor de r, si definimos la probabilidad como una cantidad proporcional a la probabilidad de que, a partir de una población que tiene el valor particular de r, se obtenga una muestra que tenga el valor observado de r". R.A. Fisher, Sobre el "error probable" de un coeficiente de correlación deducido de una muestra pequeña . Metrón 1, 1921, p.24

que menciona una proporcionalidad que Jeffreys (y yo) consideramos superflua:

" probabilidad, un término conveniente introducido por el profesor R.A. Fisher, aunque en su uso a veces se multiplica por un factor constante. Es la probabilidad de las observaciones dada la información original información original y la hipótesis en discusión". H. Jeffreys, Teoría de la probabilidad , 1939, p.28

Por citar sólo una frase de la excelente entrada histórica al tema por John Aldrich (Statistical Science, 1997):

"Fisher (1921, p. 24) reformuló lo que había escrito en 1912 sobre probabilidad inversa, distinguiendo entre las operaciones matemáticas operaciones matemáticas que se pueden realizar sobre las densidades de probabilidad y probabilidad: la probabilidad no es un ''elemento diferencial'', no puede integrarse". J. Aldrich, R. A. Fisher y la creación de la máxima Máxima Verosimilitud 1912 - 1922 , 1997 , p.9

Al adoptar un enfoque bayesiano, la función de probabilidad no cambia de forma ni de naturaleza. Sigue siendo la densidad en $x$ indexado por $\theta$ . La característica adicional es que, como $\theta$ también está dotada de un modelo probabilístico, la distribución a priori, la densidad a $x$ indexado por $\theta$ también puede interpretarse como un condicional densidad, condicionada a la realización de $\theta$ En una modelización bayesiana, una realización de $\theta$ se produce a partir del previo, con la densidad $\pi(\cdot)$ , entonces una realización de $X$ , $x$ se produce a partir de la distribución con densidad $L(\theta|\cdot)$ , indexado por $\theta$ . En otras palabras, y con respecto a la medida dominante adecuada, el par $(\theta,x)$ tiene una densidad conjunta $$\pi(\theta) \times L(\theta|x)$$ de la que se deriva la densidad posterior de $\theta$ es decir, el condicional densidad de $\theta$ condicionada a la realización de $x$ como $$\pi(\theta|x) \propto \pi(\theta) \times L(\theta|x)$$ también expresado como $$\text{posterior} \propto \text{prior} \times \text{likelihood}$$ encontrado desde Jeffreys (1939) .

Nota: Me parece que la distinción hecha en la introducción de la página de Wikipedia sobre las funciones de probabilidad entre las verosimilitudes frecuentista y bayesiana es confusa e innecesaria, o simplemente errónea, ya que la gran mayoría de los estadísticos bayesianos actuales no utilizan la verosimilitud como sustituto de la probabilidad posterior. Asimismo, la "diferencia" señalada en la página de Wikipedia sobre el Teorema de Bayes suena más confuso que otra cosa, ya que este teorema es un enunciado de probabilidad sobre un cambio de condicionamiento, independiente del paradigma o del significado de un enunciado de probabilidad. ( En mi opinión (¡es más una definición que un teorema!)

2voto

Ofir Baruch Puntos 121

Como una pequeña adición:

El nombre "Probabilidad" es totalmente engañoso, porque hay muchos significados posibles. No sólo el del "lenguaje normal", sino también en estadística. Se me ocurren al menos tres expresiones diferentes, pero incluso relacionadas, que se denominan todas ellas Likelihood; incluso en los libros de texto.

Dicho esto, al tomar la definición multiplicativa de Probabilidad, no hay nada en ella que la convierta en algún tipo de probabilidad en el sentido de su definición (por ejemplo, axiomática). Es un número de valor real. Se pueden hacer muchas cosas para calcularlo o relacionarlo con una probabilidad (tomar ratios, calcular priores y posteriors, etc.) -- pero por sí mismo no tiene ningún significado en términos de probabilidad.

La respuesta ha sido más o menos obsoleta por la respuesta mucho más informativa y completa de Xi'an. Pero a petición, algunas definiciones de libros de texto de Probabilidad:

  • la función $L (\vec{x}; \theta)$
  • el método para encontrar el "mejor" valor del parámetro $\theta$ bajo la condición de algunos datos observados (L. máximo, L. mínimo, log-L., etc.)
  • la relación de los valores de la probabilidad para diferentes prejuicios (por ejemplo, en una tarea de clasificación) ... y además los diferentes significados que se pueden intentar atribuir al (ab)uso de los elementos mencionados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X