En la lectura este artículo, me encontré con la función de verosimilitud para la regresión logística que se define como sigue (por razones de discusión, por favor, asuma el caso discreto):
$$L(X|P)=\prod_{i=1,y_i=1}^{N} P(\mathbf{x}_i)\prod_{i=1,y_i=0}^{N} (1-P(\mathbf{x}_i))$$
Estoy tratando de entender cómo se derivó esta ecuación (puede que esté en el artículo, pero puede que no lo haya entendido).
Buscando por ahí, descubrí que el lado derecho se parece mucho a la varianza de un ensayo de bernoulli $p(1-p) $ y puesto que se utiliza una regresión logística discreta para un caso de ensayo bernoulli múltiple, pensé que podría haber algo relacionado entre los dos.
En la regresión lineal, una de las métricas utilizadas para calcular un buen modelo es medir qué parte de la varianza del conjunto de datos es explicada por el modelo. He pensado que maximizar la probabilidad puede ser algo similar, para maximizar la varianza explicada de los ensayos de bernoulli.
¿Está mi intuición en el camino correcto, o tengo un malentendido muy fundamental?