26 votos

¿Qué significa en la práctica "la probabilidad sólo se define hasta una constante multiplicativa de proporcionalidad"?

Estoy leyendo un papel donde los autores pasan de una discusión sobre la estimación de máxima verosimilitud al Teorema de Bayes, aparentemente como introducción para principiantes.

Como ejemplo de probabilidad, parten de una distribución binomial:

$$p(x|n,\theta) = \binom{n}{x}\theta^x(1-\theta)^{n-x}$$

y luego registrar ambos lados

$$\ell(\theta|x, n) = x \ln (\theta) + (n-x)\ln (1-\theta)$$

con el razonamiento de que:

"Dado que la verosimilitud sólo se define hasta una constante multiplicativa de proporcionalidad (o una constante aditiva para la log-verosimilitud), podemos reescalar ... eliminando el coeficiente binomial y escribiendo la log-verosimilitud en lugar de la verosimilitud"

Las matemáticas tienen sentido, pero no consigo entender qué quiere decir que "la probabilidad sólo está definida hasta una constante multiplicativa de proporcionalidad" y cómo esto permite eliminar el coeficiente binomial y pasar de $p(x|n,\theta)$ a $\ell(\theta|x,n)$ .

Una terminología similar ha aparecido en otras preguntas ( aquí y aquí ), pero sigue sin estar claro qué significa, en la práctica, que la probabilidad esté definida o que la información llegue a una constante multiplicativa. ¿Es posible explicarlo en términos sencillos?

29voto

kjetil b halvorsen Puntos 7012

La cuestión es que, a veces, diferentes modelos (para los mismos datos) pueden dar lugar a funciones de verosimilitud que difieren en una constante multiplicativa, pero el contenido informativo debe ser claramente el mismo. Un ejemplo:

Modelamos $n$ experimentos Bernoulli independientes, que conducen a datos $X_1, \dots, X_n$ cada una con una distribución Bernoulli con parámetro (de probabilidad) $p$ . Esto conduce a la función de verosimilitud $$ \prod_{i=1}^n p^{x_i} (1-p)^{1-x_i} $$ O podemos resumir los datos mediante la variable distribuida binomialmente $Y=X_1+X_2+\dotsm+X_n$ que tiene una distribución binomial, lo que conduce a la función de verosimilitud $$ \binom{n}{y} p^y (1-p)^{n-y} $$ que, en función del parámetro desconocido $p$ es proporcional a la función de verosimilitud anterior. Las dos funciones de verosimilitud contienen claramente la misma información y deberían conducir a las mismas inferencias.

Y, de hecho, por definición, se consideran la misma función de probabilidad.


Otro punto de vista: observe que cuando las funciones de verosimilitud se utilizan en el teorema de Bayes, como se necesita para el análisis bayesiano, ¡estas constantes multiplicativas simplemente se cancelan! por lo que son claramente irrelevantes para la inferencia bayesiana. Del mismo modo, se cancelarán al calcular los cocientes de verosimilitud, como se utiliza en las pruebas de hipótesis óptimas (lema de Neyman-Pearson.) Y no influirán en el valor de los estimadores de máxima verosimilitud. Así que podemos ver que en gran parte de la inferencia frecuentista no puede desempeñar ningún papel.


Podemos argumentar desde otro punto de vista. La función de probabilidad de Bernoulli (a partir de ahora utilizaremos el término "densidad") es en realidad una densidad con respecto a la medida de recuento, es decir, la medida sobre los enteros no negativos con masa uno para cada entero no negativo. Pero podríamos haber definido una densidad con respecto a alguna otra medida dominante. En este ejemplo esto parecerá (y es) artificial, pero en espacios mayores (espacios de funciones) ¡es realmente fundamental! Utilicemos, a título ilustrativo, la distribución geométrica específica, escrita $\lambda$ con $\lambda(0)=1/2$ , $\lambda(1)=1/4$ , $\lambda(2)=1/8$ etc. Entonces la densidad de la distribución Bernoulli con respecto a $\lambda$ viene dada por $$ f_{\lambda}(x) = p^x (1-p)^{1-x}\cdot 2^{x+1} $$ lo que significa que $$ P(X=x)= f_\lambda(x) \cdot \lambda(x) $$ Con esta nueva medida dominante, la función de verosimilitud pasa a ser (con la notación anterior) $$ \prod_{i=1}^n p^{x_i} (1-p)^{1-x_i} 2^{x_i+1} = p^y (1-p)^{n-y} 2^{y+n} $$ tenga en cuenta el factor adicional $2^{y+n}$ . Así, al cambiar la medida dominante utilizada en la definición de la función de verosimilitud, surge una nueva constante multiplicativa, que no depende del parámetro desconocido $p$ y es claramente irrelevante. Esta es otra forma de ver cómo las constantes multiplicativas deben ser irrelevantes. Este argumento se puede generalizar utilizando derivadas de Radon-Nikodym (como el argumento anterior es un ejemplo de.)

14voto

Aksakal Puntos 11351

Básicamente significa que sólo importa el valor relativo del PDF. Por ejemplo, la PDF normal estándar (gaussiana) es: $f(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2}$ tu libro está diciendo que podrían usar $g(x)=e^{-x^2/2}$ en su lugar, porque no les importa la escala, es decir. $c=\frac{1}{\sqrt{2\pi}}$ .

Esto sucede porque maximizan la función de verosimilitud, y $c\cdot g(x)$ y $g(x)$ tendrán el mismo máximo. Por lo tanto, el máximo de $e^{-x^2/2}$ será el mismo que el de $f(x)$ . Así que no se preocupan por la escala.

8voto

Dilip Sarwate Puntos 16161

No puedo explicar el significado de la cita, pero por máxima verosimilitud no importa si elegimos encontrar el máximo de la función de verosimilitud $L(\mathbf x; \theta)$ (considerada como una función de $\theta$ o el máximo de $aL(\mathbf x; \theta)$ donde $a$ es una constante. Esto se debe a que no estamos interesados en el valor máximo de $L(\mathbf x; \theta)$ sino el valor $\theta_{\text{ML}}$ donde se produce este máximo, y ambos $L(\mathbf x; \theta)$ y $aL(\mathbf x; \theta)$ alcanzan su valor máximo al mismo $\theta_{\text{ML}}$ . Por lo tanto, se pueden ignorar las constantes multiplicativas. Del mismo modo, podríamos optar por considerar cualquier función monótona $g(\cdot)$ (como el logaritmo) de la función de verosimilitud $L(\mathbf x; \theta)$ determine el máximo de $g(L(\mathbf x;\theta))$ e inferir el valor de $\theta_{\text{ML}}$ de esto. Para el logaritmo, la constante multiplicativa $a$ se convierte en la constante aditiva $\ln(a)$ y esto también puede ignorarse en el proceso de encontrar la ubicación del máximo: $\ln(a)+\ln(L(\mathbf x; \theta)$ se maximiza en el mismo punto que $\ln(L(\mathbf x; \theta)$ .

Volviendo al máximo a posteriori (MAP), $\theta$ se considera una realización de una variable aleatoria $\Theta$ con a priori función de densidad $f_{\Theta}(\theta)$ , los datos $\mathbf x$ se considera realización de una variable aleatoria $\mathbf X$ y se considera que la función de verosimilitud es el valor del condicional densidad $f_{\mathbf X\mid \Theta}(\mathbf x\mid \Theta=\theta)$ de $\mathbf X$ condicionado a $\Theta = \theta$ dicho función de densidad condicional que se evalúa en $\mathbf x$ . En a posteriori densidad de $\Theta$ es $$f_{\Theta\mid \mathbf X}(\theta \mid \mathbf x) = \frac{f_{\mathbf X\mid \Theta}(\mathbf x\mid \Theta=\theta)f_\Theta(\theta)}{f_{\mathbf X}(\mathbf x)} \tag{1}$$ en el que reconocemos el numerador como el densidad conjunta $f_{\mathbf X, \Theta}(\mathbf x, \theta)$ de los datos y el parámetro estimado. El punto $\theta_{\text{MAP}}$ donde $f_{\Theta\mid \mathbf X}(\theta \mid \mathbf x)$ alcanza su valor máximo es la estimación MAP de $\theta$ y, utilizando los mismos argumentos que en el párrafo, vemos que podemos ignorar $[f_{\mathbf X}(\mathbf x)]^{-1}$ en el lado derecho de $(1)$ como constante multiplicativa sólo como podemos ignorar las constantes multiplicativas en ambos $f_{\mathbf X\mid \Theta}(\mathbf x\mid \Theta=\theta)$ y en $f_\Theta(\theta)$ . Del mismo modo, cuando se utilizan log-likelihoods podemos ignorar las constantes aditivas.

6voto

bessman Puntos 2514

En términos sencillos, se suele buscar la máxima probabilidad y $f(x)$ y $kf(x)$ comparten los mismos puntos críticos.

1voto

Jeff Bauer Puntos 236

Sugeriría no eliminar de la vista los términos constantes de la función de verosimilitud (es decir, los términos que no incluyen los parámetros). En circunstancias normales, no afectan a la $\text {argmax}$ de la probabilidad, como ya se ha mencionado. Pero:

Puede haber circunstancias inusuales en las que tenga que maximizar la probabilidad sujeta a un límite máximo, y entonces deberá "acordarse" de incluir cualquier constante en el cálculo de su valor.

Además, puede que esté realizando pruebas de selección de modelos para modelos no anidados, utilizando el valor de la verosimilitud en el proceso -y como los modelos no están anidados las dos verosimilitudes tendrán constantes diferentes.

Aparte de éstas, la sentencia

"Dado que la probabilidad sólo se define hasta una constante multiplicativa constante de proporcionalidad (o una constante aditiva para la log-verosimilitud)"

es equivocado porque la probabilidad es primero a función de densidad de probabilidad conjunta y no "cualquier" función objetivo a maximizar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X