9 votos

Medida de la varianza explicada para el GLM de Poisson (función log-link)

Estoy buscando una medida apropiada de la "varianza explicada" de un GLM de Poisson (utilizando una función de enlace logarítmico).

He encontrado una serie de recursos diferentes (tanto en este sitio como en otros) que discuten una serie de diferentes pseudo- $R^2$ medidas, pero casi todos los sitios mencionan las medidas en relación con una función de enlace logit, y no discuten si el pseudo- $R^2$ son apropiadas para otras funciones de enlace, como log-link para mi GLM de distribución de Poission.

Por ejemplo, estos son algunos de los sitios que he encontrado:

Qué pseudo- $R^2$ ¿es la medida a reportar para la regresión logística (Cox & Snell o Nagelkerke)?

http://thestatsgeek.com/2014/02/08/r-squared-in-logistic-regression/

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

Mi pregunta es: ¿Alguno de los métodos que se comentan en esos enlaces (en particular, las preguntas frecuentes de la página de UCLA) es apropiado para un MLG de Poission (que utiliza una función de enlace logarítmico)? ¿Hay algún método en particular que sea más apropiado y/o que se utilice de forma estándar que cualquier otro método?

Algunos antecedentes:

Esto es para un trabajo de investigación en el que estoy utilizando un GLM de Poission para analizar datos neuronales. Estoy utilizando las desviaciones de los modelos (calculadas asumiendo una distribución de Poission) para comparar dos modelos: Un modelo (A) que incluye 5 parámetros que se dejaron fuera del otro modelo (B). Mi interés (y el enfoque del artículo) es mostrar que esos 5 parámetros mejoran estadísticamente el ajuste del modelo. Sin embargo, uno de los revisores quiere saber si ambos modelos se ajustan a los datos.

Si utilizara OLS para ajustar mis datos, el revisor está pidiendo efectivamente el $R^2$ tanto para el modelo con los 5 parámetros como sin los 5 parámetros, para indicar lo bien que cualquiera de los dos modelos explica la varianza. Me parece una petición razonable. Digamos que, hipotéticamente, el modelo B tiene un $R^2$ de 0,05 y el modelo A tiene un $R^2$ de 0,25: aunque sea una mejora estadísticamente significativa, ninguno de los dos modelos explica bien los datos. Por otra parte, si el modelo B tiene un $R^2$ de 0,5 y el modelo A tiene un $R^2$ de 0,7, que podría interpretarse de forma muy diferente. Estoy buscando la medida más adecuada que pueda aplicarse de forma similar a mi MLG.

0 votos

¿Por qué no funcionaría un BIC o una prueba de la diferencia de las logaritmos de probabilidad, sobre todo porque una es una versión anidada de la otra?

0 votos

Esto es un poco tarde para mis propósitos (el artículo se publicó en línea este miércoles pasado), pero para que conste: Estoy utilizando la diferencia en las logaritmos de probabilidad como la medida principal, pero un revisor quería una medida de "varianza explicada", así que en el interés de apaciguar a los revisores, traté de llegar a algo. Lo que acabé fue algo como lo que sugirió nukimov a continuación.

2voto

steve Puntos 1

McCullagh y Nelder 1989 (página 34) dan para la función de desviación $D$ para la distribución de Poisson:

$$ D = 2 \sum\left(y \log\left(\frac{y}{\mu} \right) + (y-\mu)\right) $$

donde y representa sus datos y $\mu$ su salida modelada. Utilizo esta función para estimar la desviación explicada $ED$ de un GLM con distribución de Poisson así:

$$ ED = 1 - \frac{D}{\text{total deviance}} $$

donde la desviación total viene dada por la misma ecuación para $D$ pero utilizando la media de $y$ (un solo número, es decir $\mathrm{mean}(y)$ ) en lugar del conjunto de estimaciones modeladas $\mu$ .

No sé si esto es 100% correcto, para mí suena lógico y parece funcionar como se esperaría que funcionara una estimación de la desviación explicada (te da 1 si usas $\mu = y$ etc.).

1 votos

Utilicé la función de desviación como medida principal para el documento, utilizando exactamente la ecuación que proporcionaste arriba. Sin embargo, un revisor quería una medida de la "varianza explicada", así que para apaciguar a los revisores, intenté idear algo. El resultado fue el siguiente: $$ pseudoR^2_M = \frac{ln(\Gamma_M) - ln(\Gamma_{Null})} {ln(\Gamma_{Sat}) - ln(\Gamma_{Null})} $$ $ln(\Gamma_{Sat})$ es la log-verosimilitud de un modelo saturado, $ln(\Gamma_{Null})$ es la log-verosimilitud del modelo nulo, y $ln(\Gamma_{M})$ es la log-verosimilitud del modelo en cuestión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X