La probabilidad podría definirse de varias maneras, por ejemplo :
-
la función $L$ de $\Theta\times{\cal X}$ que mapea $(\theta,x)$ a $L(\theta \mid x)$ es decir $L:\Theta\times{\cal X} \rightarrow \mathbb{R} $ .
-
la función aleatoria $L(\cdot \mid X)$
-
también podríamos considerar que la probabilidad es sólo la probabilidad "observada" $L(\cdot \mid x^{\text{obs}})$
-
en la práctica la probabilidad aporta información sobre $\theta$ sólo hasta una constante multiplicativa, por lo que podríamos considerar la probabilidad como una clase de equivalencia de funciones en lugar de una función
Otra cuestión se plantea al considerar el cambio de parametrización: si $\phi=\theta^2$ es la nueva parametrización que comúnmente denotamos por $L(\phi \mid x)$ la probabilidad en $\phi$ y esto no es la evaluación de la función anterior $L(\cdot \mid x)$ en $\theta^2$ pero en $\sqrt{\phi}$ . Se trata de una notación abusiva pero útil que podría causar dificultades a los principiantes si no se hace hincapié en ella.
¿Cuál es su definición rigurosa favorita de la probabilidad?
Además, ¿cómo se llama a $L(\theta \mid x)$ ? Suelo decir algo así como "la probabilidad en $\theta$ cuando $x$ se observa".
EDIT: A la vista de algunos comentarios más abajo, me doy cuenta de que debería haber precisado el contexto. Considero un modelo estadístico dado por una familia paramétrica $\{f(\cdot \mid \theta), \theta \in \Theta\}$ de densidades con respecto a alguna medida dominante, con cada $f(\cdot \mid \theta)$ definida en el espacio de las observaciones ${\cal X}$ . Por lo tanto, definimos $L(\theta \mid x)=f(x \mid \theta)$ y la pregunta es "¿qué es $L$ ?" (la pregunta no se refiere a una definición general de la probabilidad)
2 votos
(1) Porque $\int L(\theta|x)dx = 1$ para todos $\theta$ Creo que incluso la constante en $L$ se define. (2) Si se piensa en parámetros como $\phi$ y $\theta$ como si se tratara simplemente de coordenadas para una multitud de distribuciones, entonces el cambio de parametrización no tiene un significado matemático intrínseco; es simplemente un cambio de descripción. (3) Los hablantes nativos de inglés dirían más naturalmente "likelihood de $\theta$ " en lugar de "en". (4) La cláusula "cuando $x$ se observa" tiene dificultades filosóficas, porque la mayoría $x$ nunca se observará. ¿Por qué no decir simplemente "probabilidad de $\theta$ dado $x$ "?
1 votos
@whuber: Para (1), no creo que la constante esté bien definida. Ver el libro de ET Jaynes donde escribe: "que una probabilidad no es una probabilidad porque su normalización es arbitraria".
3 votos
Parece que confundes dos tipos de normalización, Neil: Jaynes se refería a la normalización por integración sobre $\theta$ no $x$ .
0 votos
@whuber: ¿Por qué importa eso? Si es invariante de escala, debería ser invariante de escala integrando sobre $x$ o $\theta$ ? Concretamente, podríamos decir que una variable aleatoria Bernoulli con sesgo $\theta$ induce una probabilidad $L(\theta \mid x)=k(1-\theta)^{1-x}\theta^x$ . $k$ no importa ya que la relación de probabilidades es siempre correcta.
0 votos
@Neil, si el sólo para lo que se usan las probabilidades es para el MLE, entonces está bien. Pero se utilizan para otras cosas, como el cálculo de la Límite de Cramer-Rao . La constante será crucial en estas aplicaciones.
1 votos
@whuber: No creo que un factor de escala importe para el límite de Cramer-Rao porque cambiar $k$ añade una cantidad constante a la log-verosimilitud, que luego desaparece cuando se toma la derivada parcial.
2 votos
Estoy de acuerdo con Neil, no veo ninguna aplicación donde la constante juegue un papel
0 votos
@whuber: (4) "dado $x$ "no se define en entornos no bayeanos, ya que $\theta$ es entonces una constante, no una variable aleatoria; (1) como muestra el Principio de Verosimilitud, dos verosimilitudes proporcionales traen la mismo información sobre $\theta$ por lo que también creo que una probabilidad no puede se normalice.
0 votos
@Xi'an gracias, pero estamos hablando de cosas diferentes. No estoy tratando $\theta$ como una variable aleatoria, ni estoy sugiriendo que la probabilidad se integre sobre $\theta$ ("normalizado"). Para cada valor de $\theta$ , $L(x|\theta)$ es una distribución de probabilidad, y punto. Por favor, vea este puesto para una definición de $L$ que lo hace único, no sólo multiplicativamente. Si no se define $L$ de forma única, entonces cómo se pueden comparar dos valores óptimos de $L$ cuando se comparan los modelos?
0 votos
Estoy de acuerdo en que la constante de normalización debería desempeñar un papel cuando se comparan modelos no anidados, pero soy un ignorante de tales comparaciones de modelos.
0 votos
@whuber: (1) El límite inferior de Cramer-Rao y la matriz de información de Fisher no dependen de la constante de normalización debido al logaritmo; (2) Las probabilidades asociadas a una muestra y a la estadística suficiente correspondiente (suponiendo que exista) aportan la misma cantidad de información sobre $\theta$ pero sólo son proporcionales; (3) no hay que confundir la probabilidad (en función de $\theta$ con $x$ fija) con la densidad (en función de $x$ con $\theta$ fijo)
0 votos
@whuber: (4) Ninguna de las discusiones anteriores y siguientes da cuenta de que Birnbaum Principio de probabilidad ..
0 votos
@Xi'an (1) tiene razón; (2) parece irrelevante para mi punto de vista; y (3) simplemente me asombra: ¿dónde, en cualquier cosa que haya escrito en este sitio, ves siquiera una sugerencia de que tomaría la probabilidad de ser una densidad sobre $\theta$ ? La configuración habitual ni siquiera especifica un álgebra sigma para $\Omega$ , por lo que apenas podemos empezar con la integración. Me esfuerzo por desengañar a los demás de esa idea. (4) En la página 19 queda claro que la proporcionalidad se extiende sólo para un fijo $x$ es decir, en la fase en la que un óptimo $\theta$ se busca para un determinado $x$ , hay mucho libertad para modificar $L$ .
0 votos
@whuber: (3) esto no es lo que quería decir así que, ¡perdón por mi francés!, pero la probabilidad fue introducida por Fisher como una función de $\theta$ indexado por $x$ exactamente para distinguirla de la densidad de muestreo $f(x|\theta)$ que es una densidad en $x$ no en $\theta$ .
0 votos
@Xi'an: el principio de probabilidad no es un teorema; por lo tanto, no podemos afirmar que algo sea incorrecto o correcto en nombre del principio de probabilidad
0 votos
De hecho, la definición está implícita hasta una constante si no damos importancia a la medida dominante.
1 votos
Véase el siguiente documento para una discusión muy profunda y moderna: > Bjørnstad, J. F. (1996). Sobre la generalización de la función de probabilidad y el principio de probabilidad . Revista de la Asociación Americana de Estadística 91 : 791-806.