Supongamos que tenemos alguna variable aleatoria $X$ que abarca un espacio muestral $S$ . También tenemos dos modelos de probabilidad $F$ y $G$ . Dejemos que $f(x)$ y $g(x)$ sean las funciones de densidad de probabilidad de estas distribuciones. ¿La siguiente cantidad $$ \log \frac{f(x)}{g(x)} = \log \frac{P(F|x)}{P(G|x)}- \log \frac{P(F)}{P(G)}$$ básicamente nos dicen cuánto más probable es el modelo $F$ es el modelo verdadero que el modelo $G$ ?
Respuestas
¿Demasiados anuncios?Estoy totalmente confundido por el último comentario hecho por Michael (la respuesta está bien, es el vínculo con la regresión logística lo que se me fue de las manos). La regresión logística se utiliza cuando se tienen pares de observaciones (X, Y) donde Y es una variable binaria (que toma valores en {0,1}) que se modela como una variable Bernoulli $\mathcal{B}(p)$ cuyo parámetro depende del valor $x$ tomada por $X$ : $\mathrm{logit}(p) = \beta_0 + \beta_1 x$ . Aquí no se observa una variable Y que tome valor 1 cuando el modelo es F y 0 cuando es G, el modelo está fijado de antemano y no cambiaría a lo largo de las observaciones... y no se escribiría $\mathrm{logit} P(F) = \beta_0 + \beta_1 x$ . Para mí, esto no tiene ningún sentido.
Voy a reformular ligeramente la respuesta de Michael, sólo para darle algunas palabras clave adicionales. Si tienes una única observación $x$ entonces $f(x)$ es el probabilidad del modelo F, denótelo por $L(F; x) = f(x)$ y $g(x)$ es la probabilidad del modelo G, denotándola por $L(G;x) = g(x)$ . Como ha dicho, el ratio de probabilidad $L(F ; x)/L(G ;x) = f(x)/g(x)$ te dice cuánto apoyan los datos a F contra G.
Si tiene probabilidades previas para F y G, denotados por P(F) y P(G) = 1 - P(F), entonces se puede escribir probabilidades posteriores P(F|x) y P(G|x). Se tiene $$ P(F | x) = { L(F ; x) P(F) \over L(F;x) P(F) + L(G;x) P(G)},$$ $$ P(G | x) = { L(G ; x) P(G) \over L(F;x) P(F) + L(G;x) P(G)},$$ y $$ {P(F | x) \over P(G |x) } = {P(F) \over P(G)} \times {L(F ; x) \over L(G ;x)}.$$ Esto es, como dijo Michael, una aplicación del teorema de Bayes. La cantidad P(F)/P(G) = P(F)/(1-P(F)) se denomina probabilidades del modelo F. Se puede tomar el logaritmo de esta última igualdad para obtener una afirmación aditiva, lo que es muy habitual (véase la respuesta de Michael). La cantidad L(F;x)/L(G;x) se llama Factor de Bayes .
Si tiene $n$ observaciones independientes $\mathbf{x} = x_1, \dots, x_n$ lo mismo ocurre con $L(F ; \mathbf{x}) = \prod_i f(x_i)$ y $L(G ; \mathbf{x}) = \prod_i g(x_i)$ .
Me desconcertó un poco la notación, pero supongo que por $P(F)$ se refiere a la probabilidad de que $F$ es el modelo correcto, y $P(F\mid x)$ es la probabilidad condicional de que $F$ es el modelo correcto dado el evento $X=x$ .
La identidad que escribe es entonces una forma de un caso especial de lo que a veces se llama teorema de Bayes.
Si se asume que el modelo correcto debe ser $F$ o $G$ pero no ambos, entonces se puede decir que $$ \operatorname{logit} P(F) = \log \frac{P(F)}{1-P(F)} = \log(\operatorname{odds}(F)) $$ aumenta en $\log(f(x)/g(x))$ cuando se observa que $X=x$ .
Así que esa cantidad te dice en cuánto aumenta el logit de la probabilidad cuando observas los datos.