2 votos

R: ¿Cómo trata el GLM los ceros en la regresión de Poisson?

¿Cómo se pasan los ceros a la regresión de Poisson? Quiero decir que el logaritmo de 0 es -infinito, por lo que no debería ser capaz de proporcionar recuentos cero como variable dependiente. ¿Utiliza algún tipo de técnica analítica para ampliar el dominio de la función logarítmica en este punto concreto?

¿Influye negativamente en mi estimación de la regresión en caso de que haya muchos ceros (datos inflados a cero)?

1 votos

Recuerde que la regresión está prediciendo la media de la variable de respuesta condicional, no un valor concreto. Esto es similar a cómo una regresión logística predice una probabilidad, aunque las observaciones sean resultados discretos.

1 votos

La regresión de Poisson espera ceros porque la distribución de Poisson los produce. El modelo es lineal en el logaritmo del media de Y no en el registro de Y .

0 votos

@Dave Sí, pero me interesan los detalles de la implementación del MLG. Si tengo algunos casos cuando la variable dependiente es igual a 0, ¿cómo es GLM capaz de aceptar que? Debería haber algún tipo de error como: 'sólo se permiten valores positivos' - no puedes pasar 0 a la función log.

6voto

gpvos Puntos 103

La probabilidad de una v.r. de Poisson $Y_i$ es la siguiente:

$$ \text{L}(\lambda, y_i) = \frac{e^{-\lambda}\lambda^{y_i}}{y_i!} $$

Cuando se maximiza la probabilidad logarítmica, este es el aspecto de la función:

$$ \text{LL}(\lambda, y_i) = -\lambda + y_i \log{\lambda} - \log{(y_i!)} $$

Y si se diferencia con respecto a $\lambda$ , fíjate en que los ceros de $y_i$ no interfieren en el cálculo. Lo mismo ocurre con una serie de v.r., sólo que las sumas aparecen en el proceso.


Cuando se habla de GLMs, aparece un componente extra debido a la necesidad de una función de enlace y porque los GLMs se construyen sobre la familia de distribuciones de dispersión exponencial, pero además, ninguna de ellas acaba dependiendo del valor de $y_i$ en un cálculo de registro, sólo el parámetro $\lambda$ .

Otro lugar que puede arrojar luz sobre este posible problema es cuando se calcula la desviación de su modelo de Poisson. En resumen, sólo utilizamos la log-verosimilitud por razones computacionales y algebraicas, pero lo que nos importa es la función de verosimilitud. La desviación se define como

$$ \text{D}(y, \hat \lambda) = 2(LL(y,y)-LL(\hat \lambda, y)) = \sum^n_{i=1}d^2(\lambda_i, y_i) $$

Donde $LL(y,y)$ es la probabilidad bajo el modelo saturado, $d^2(\mu_i, y_i)$ es el componente de desviación del $i$ observación. Para el caso de Poisson, si se sigue la definición bajo la log-verosimilitud, no se podrá calcular la desviación, ni en consecuencia los residuos de la desviación, debido al problema del logaritmo de cero. Pero si haces los pasos algebraicos antes de los cálculos, puedes llegar a :

$$ d^2(\mu_i, y_i) = 2({y_i \log(y_i/\hat \lambda_i) - (y_i- \hat \lambda_i))} $$

si $y_i > 0$ y

$$ d^2(\mu_i, y_i) = 2{\hat \lambda_i} $$

si $y_i = 0$ .

En conclusión, el problema de los ceros en los datos de la regresión de Poisson no es un problema en absoluto. Lo que puede ser un problema, estadísticamente, pero no computacionalmente, es la presencia de demasiados o muy pocos ceros para que se aplique un modelo de Poisson. En este caso, tenemos los modelos cero-inflado y cero ajustado para ayudar a un modelo a ajustarse a eso.

2 votos

Muchas gracias, ¡es una respuesta estupenda! (+1)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X