En 'la Probabilidad basada en la inferencia con singular de la matriz de información' (Rotnitzky) se da un ejemplo de la siguiente manera:
Supongamos que $Y$ se distribuye normalmente con una media de $\beta$ y la varianza $\sigma^2$. Hay disponibles para el estudio de la $n$ independiente de los individuos, sino para cada uno hay la posibilidad de que el valor de $Y$ no puede ser observado. Si la probabilidad de no ser capaz de observar $Y$ se supone independiente del valor observado en el análisis continúa con solo la observa plenamente los individuos. Supongamos, sin embargo, que condicionalmente en $Y= y$ la probabilidad de observar $y$ tiene la forma $$\mathcal{P}_c(y; \alpha_0, \alpha_1) = \exp\left\{H\left(\alpha_0+\alpha_1\dfrac{y-\beta}{\sigma}\right)\right\}$$ donde $(\alpha_0, \alpha_1)$ son parámetros desconocidos y $H(\cdot)$ es una función conocida supone que tienen sus tres primeras derivadas en $\alpha_0$ cero. El interés puede estar en los pequeños valores de $\alpha_1$ y, en particular, en la prueba de la hipótesis nula $\alpha_1=0$.
Por lo tanto, consideramos dos variables aleatorias $(R,Y)$ donde $R$ es binaria, toma los valores 0 y 1. El valor de $Y$ se cumple si y sólo si $R=1$. La contribución de un individuo a la log-verosimilitud es así $$-r\log \sigma - r \frac{(y-\beta)^2}{(2\sigma)^2} + rH\left(\alpha_0+\alpha_1 \dfrac{y-\beta}{\sigma}\right) + (1-r)\log Q_c(\alpha_0,\alpha_1)$$
donde $$Q_C(\alpha_0,\alpha_1) = E\{1-\mathcal{P}_c(Y;\alpha_0,\alpha_1)\}$$ es la probabilidad marginal de que $Y$ no se observa. Para $n$ de los individuos de la log-verosimilitud $L_n(\beta,\sigma, \alpha_0, \alpha_1)$ es la suma de $n$ tales términos.
Pero no entiendo cómo este log-verosimilitud se deriva. Supongo que tendría algo como $f_{Y,R}(y,r) = f_{Y|R}(y|r) \cdot f_R(r)$ pero, ¿cómo funciona esto?
También sé cómo $$f_R(r) = \left(\exp\left\{H\left(\alpha_0+\alpha_1\dfrac{y-\beta}{\sigma}\right) \right\}\right)^r \cdot \left(1-\exp\left\{H\left(\alpha_0+\alpha_1\dfrac{y-\beta}{\sigma}\right)\right\}\right)^{1-r}$$ Pero, a continuación, la log-verosimilitud sería $$r\cdot \left\{H\left(\alpha_0+\alpha_1\dfrac{y-\beta}{\sigma}\right)\right\}+(1-r) \cdot \log\left(1-\exp\left\{H\left(\alpha_0+\alpha_1\dfrac{y-\beta}{\sigma}\right)\right\}\right) $$
¿Por qué es $Q_c$ el valor esperado de $1-\mathcal{P}_c$?