Estoy derivando la probabilidad de la regresión logística. He visto dos versiones diferentes:
$$\begin{equation} f(y|\beta)={\displaystyle \prod_{i=1}^{N} \frac{n_i} {y_i!(n_i-y_i)!}} \pi_{i}^{y_i}(1-\pi_i)^{n_i - y_i} \tag 1 \end{equation}$$
O esto
$$\begin{equation} L(\beta_0,\beta_1)= \displaystyle \prod_{i=1}^{N}p(x_i)^{y_i}(1-p(x_i))^{1-y_i} \tag 2 \end{equation}$$
¿Por qué hay $\frac{n_i} {y_i!(n_i-y_i)!}$ en la ecuación 1?
Fuentes:
- Primero: https://czep.net/stat/mlelr.pdf (página 3 equ. 2)
- Segundo: http://www.stat.cmu.edu/~cshalizi/uADA/12/lecturas/ch12.pdf (página 5 equ. 12.6)
Nota: Esta pregunta no es un duplicado de ¿Qué significa en la práctica "la probabilidad sólo se define hasta una constante multiplicativa de proporcionalidad"? Uno puede remontar la respuesta a la distribución binomial, después de ver cómo se hace. Pero nadie hubiera sabido que la pregunta de ese post es la respuesta a esta pregunta.
6 votos
Ese factor debería estar ahí, pero si se busca la $\beta$ que maximiza esta función entonces, como el factor no depende de $\beta$ no tendrá influencia en el $\beta$ donde tienes el máximo. Por cierto, has perdido el $\Pi$ en la segunda fórmula.
0 votos
Incluso después de ver la nota (y, profundizando, viendo el cierre y la reapertura), yo también habría dicho que "las funciones de probabilidad están definidas hasta la proporcionalidad" era la respuesta a esta pregunta. En este caso, no importa si se conoce el orden de las observaciones o no, ya que conducen a funciones de verosimilitud proporcionales