29 votos

¿Por qué la gente utiliza $\mathcal{L}(\theta|x)$ para la probabilidad en lugar de $P(x|\theta)$ ?

Según el artículo de Wikipedia Función de verosimilitud la función de verosimilitud se define como:

$$ \mathcal{L}(\theta|x)=P(x|\theta), $$

con parámetros $\theta$ y datos observados $x$ . Esto equivale a $p(x|\theta)$ o $p_\theta(x)$ dependiendo de la notación y de si $\theta$ se trata como variable aleatoria o valor fijo.

La notación $\mathcal{L}(\theta|x)$ me parece una abstracción innecesaria. ¿Hay alguna ventaja en utilizar $\mathcal{L}(\theta|x)$ o se podría utilizar $P(x|\theta)$ ? ¿Por qué $\mathcal{L}(\theta|x)$ ¿introducido?

27voto

AdamSane Puntos 1825

La probabilidad es función de $\theta$ dado $x$ mientras que $P$ es función de $x$ dado $\theta$ .

Más o menos así (disculpen el rápido esfuerzo en MS paint):

"3D" plot showing a set of densities running left to right and likelihoods running front to back

En este esquema tenemos un único $x$ como nuestra observación. Las densidades (funciones de $x$ en algún $\theta$ ) están en negro de izquierda a derecha y las funciones de verosimilitud (funciones de $\theta$ en algún $x$ ) están en rojo, de delante hacia atrás (o más bien de atrás hacia delante, ya que el $\theta$ eje viene 'adelante' y algo a la izquierda). Las curvas rojas son las que se obtienen al "cortar" el conjunto de densidades negras, evaluando cada una de ellas a un determinado $x$ . Cuando tengamos alguna observación, "elegirá" una única curva roja en $x=x_\text{obs}$ .

  • La función de verosimilitud es no una densidad (o pmf) -- no se integra (/suma) a 1.

  • En efecto, $\mathcal L$ puede ser continua mientras que $P$ es discreta (por ejemplo, probabilidad para un parámetro binomial) o viceversa (por ejemplo, probabilidad para una distribución Erlang con parámetro de tasa unitaria pero forma no especificada)

Imaginemos una función bivariante de una única observación potencial $x$ (por ejemplo, un recuento de Poisson) y un único parámetro (por ejemplo $\lambda$ ) -- en este ejemplo discreto en $x$ y continua en $\lambda$ -- entonces cuando cortas esa función bivariada de $(x,\lambda)$ una forma de conseguir $p_\lambda(x)$ (cada rebanada da un pmf diferente) y cuando lo rebanas al revés obtienes $\mathcal L_x(\lambda)$ (cada una con una función de verosimilitud diferente).

(Esa función bivariada simplemente expresa la forma en que $x$ y $\lambda$ están relacionados a través de su modelo)

[Alternativamente, considere una $\theta$ y una continua $x$ aquí la probabilidad es discreta y la densidad continua].

Tan pronto como especifique $x$ Si identifica una $\mathcal L$ que llamamos función de verosimilitud de esa muestra. Le informa sobre $\theta$ para esa muestra -- en particular qué valores tenían más o menos probabilidad de dar esa muestra.

La probabilidad es una función que le informa sobre la relativa azar (en el sentido de que los cocientes de probabilidades pueden considerarse cocientes de probabilidades de estar en $x+dx$ ) que cette valor de $\theta$ podría producir sus datos.

3voto

nunya Puntos 21

Según la teoría bayesiana, $f(\theta|x_1,...,x_n) = \frac{f(x_1,...,x_n|\theta) * f(\theta)}{f(x_1,...,x_n)}$ se mantiene, es decir $\text{posterior} = \frac{\text{likelihood} * \text{prior}}{evidence}$ .

Obsérvese que la estimación de máxima verosimilitud omite las creencias previas (o las convierte por defecto en gaussianas de media cero y cuenta con ellas como regularización L2 o decaimiento del peso) y trata la evidencia como constante (al calcular la derivada parcial con respecto a $\theta$ ).

Intenta maximizar la probabilidad ajustando $\theta$ y sólo tratar $f(\theta|x_1,...,x_n)$ igual a $f(x_1,...,x_n|\theta)$ que podemos obtener fácilmente (normalmente la pérdida) y mantener la probabilidad como $\mathcal{L}(\theta|\mathbf x)$ . La probabilidad real $\frac{f(x_1,...,x_n|\theta) * f(\theta)}{f(x_1,...,x_n)}$ difícilmente se puede calcular porque las pruebas (el denominador), $\int_{\theta} f(x_1, ...,x_n, \theta)d\theta$ es intratable.

Espero que esto ayude.

2voto

mtk Puntos 382

Estoy de acuerdo con @Big Agnes. Esto es lo que enseñó mi profesor en clase: Una forma es pensar en la función de probabilidad $L(\theta | \mathbf{x})$ como una función aleatoria que depende de los datos. Diferentes datos nos dan diferentes funciones de probabilidad. Así que se puede decir que condiciona los datos. Dada una realización de los datos, queremos encontrar una $\hat{\theta}$ tal que $L(\theta | \mathbf{x})$ se maximiza o se puede decir $\hat{\theta}$ es la más coherente con los datos. Esto es lo mismo que decir que maximizamos la "probabilidad observada" $P (\mathbf{x} | \theta)$ . Utilizamos $P(\mathbf{x} | \theta)$ hacer cálculos, pero es diferente de $P(\mathbf{X} | \theta)$ . Pequeño $\mathbf{x}$ representa los valores observados, mientras que $\mathbf{X}$ significa variable aleatoria. Si conoce $\theta$ entonces $P(\mathbf{x} | \theta)$ es la probabilidad/densidad de observar $\mathbf{x}$ .

2voto

Big Agnes Puntos 358

Creo que las otras respuestas dadas por jwyao y Glen_b son bastante buenas. Sólo quería añadir un ejemplo muy sencillo que es demasiado largo para un comentario.

Considere una observación $X$ de una distribución Bernoulli con probabilidad de éxito $\theta$ . Con $\theta$ fija (conocida o desconocida), la distribución de $X$ viene dado por $p(X|\theta)$ .

$$P(x|\theta) = \theta^x(1-\theta)^{1-x}$$

En otras palabras, sabemos que $P(X=1) = 1 - P(X=0) = \theta$ .

Alternativamente, podríamos tratar la observación como fija y verla como una función de $\theta$ .

$$L(\theta | x) = \theta^x(1-\theta)^{1-x}$$

Por ejemplo, en un entorno de máxima verosimilitud, tratamos de encontrar $\theta$ que maximiza la probabilidad en función de $\theta$ . Por ejemplo, si observamos $X = 1$ la probabilidad es

$$L(\theta | x) = \begin{cases} \theta, & 0 \leq \theta \leq 1 \\ 0, & \text{else} \end{cases}$$

y vemos que la MLE sería $\hat\theta = 1$ .

No estoy seguro de haber aportado nada a la discusión, pero sólo quería dar un ejemplo sencillo de las diferentes formas de ver la misma función.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X