La probabilidad de una v.r. de Poisson $Y_i$ es la siguiente:
$$ \text{L}(\lambda, y_i) = \frac{e^{-\lambda}\lambda^{y_i}}{y_i!} $$
Cuando se maximiza la probabilidad logarítmica, este es el aspecto de la función:
$$ \text{LL}(\lambda, y_i) = -\lambda + y_i \log{\lambda} - \log{(y_i!)} $$
Y si se diferencia con respecto a $\lambda$ , fíjate en que los ceros de $y_i$ no interfieren en el cálculo. Lo mismo ocurre con una serie de v.r., sólo que las sumas aparecen en el proceso.
Cuando se habla de GLMs, aparece un componente extra debido a la necesidad de una función de enlace y porque los GLMs se construyen sobre la familia de distribuciones de dispersión exponencial, pero además, ninguna de ellas acaba dependiendo del valor de $y_i$ en un cálculo de registro, sólo el parámetro $\lambda$ .
Otro lugar que puede arrojar luz sobre este posible problema es cuando se calcula la desviación de su modelo de Poisson. En resumen, sólo utilizamos la log-verosimilitud por razones computacionales y algebraicas, pero lo que nos importa es la función de verosimilitud. La desviación se define como
$$ \text{D}(y, \hat \lambda) = 2(LL(y,y)-LL(\hat \lambda, y)) = \sum^n_{i=1}d^2(\lambda_i, y_i) $$
Donde $LL(y,y)$ es la probabilidad bajo el modelo saturado, $d^2(\mu_i, y_i)$ es el componente de desviación del $i$ observación. Para el caso de Poisson, si se sigue la definición bajo la log-verosimilitud, no se podrá calcular la desviación, ni en consecuencia los residuos de la desviación, debido al problema del logaritmo de cero. Pero si haces los pasos algebraicos antes de los cálculos, puedes llegar a :
$$ d^2(\mu_i, y_i) = 2({y_i \log(y_i/\hat \lambda_i) - (y_i- \hat \lambda_i))} $$
si $y_i > 0$ y
$$ d^2(\mu_i, y_i) = 2{\hat \lambda_i} $$
si $y_i = 0$ .
En conclusión, el problema de los ceros en los datos de la regresión de Poisson no es un problema en absoluto. Lo que puede ser un problema, estadísticamente, pero no computacionalmente, es la presencia de demasiados o muy pocos ceros para que se aplique un modelo de Poisson. En este caso, tenemos los modelos cero-inflado y cero ajustado para ayudar a un modelo a ajustarse a eso.
1 votos
Recuerde que la regresión está prediciendo la media de la variable de respuesta condicional, no un valor concreto. Esto es similar a cómo una regresión logística predice una probabilidad, aunque las observaciones sean resultados discretos.
1 votos
La regresión de Poisson espera ceros porque la distribución de Poisson los produce. El modelo es lineal en el logaritmo del media de Y no en el registro de Y .
0 votos
@Dave Sí, pero me interesan los detalles de la implementación del MLG. Si tengo algunos casos cuando la variable dependiente es igual a 0, ¿cómo es GLM capaz de aceptar que? Debería haber algún tipo de error como: 'sólo se permiten valores positivos' - no puedes pasar 0 a la función log.