Por lo que he estado leyendo, entre otros en el sitio de la El grupo consultor de estadísticas de la UCLA Las pruebas de proporción de probabilidad y las pruebas de Wald son bastante similares para probar si dos modelos de Glm muestran una diferencia significativa en el ajuste de un conjunto de datos (disculpe si mi redacción puede estar un poco fuera de lugar). En esencia, puedo comparar dos modelos y probar si el segundo modelo muestra un ajuste significativamente mejor que el primero, o si no hay diferencia entre los modelos.
Así que los tests de LR y Wald deberían mostrar los mismos valores p para los mismos modelos de regresión. Por lo menos la misma conclusión debería salir.
Ahora hice ambas pruebas para el mismo modelo en R y obtuve resultados muy diferentes. Aquí están los resultados de R para un modelo:
> lrtest(glm(data$y~1),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
#Df LogLik Df Chisq Pr(>Chisq)
1 2 -89.808
2 9 -31.625 7 116.37 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> lrtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
#Df LogLik Df Chisq Pr(>Chisq)
1 1 -54.959
2 9 -31.625 8 46.667 1.774e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> waldtest(glm(data$y~data$site_name,family="poisson"))
Wald test
Model 1: data$y ~ data$site_name
Model 2: data$y ~ 1
Res.Df Df F Pr(>F)
1 45
2 53 -8 0.7398 0.6562
> waldtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Wald test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
Res.Df Df F Pr(>F)
1 53
2 45 8 0.7398 0.6562
Sobre los datos, los datos \$y contains count data and data\$ site_name es un factor con 9 niveles. Hay 54 valores en los datos \$y, with 6 values per level of data\$ nombre del sitio.
Aquí están las distribuciones de frecuencia:
> table(data$y)
0 2 4 5 7
50 1 1 1 1
> table(data$y,data$site_name)
Andulay Antulang Basak Dauin Poblacion District 1 Guinsuan Kookoo's Nest Lutoban Pier Lutoban South Malatapay Pier
0 6 6 6 4 6 6 6 5 5
2 0 0 0 0 0 0 0 1 0
4 0 0 0 1 0 0 0 0 0
5 0 0 0 0 0 0 0 0 1
7 0 0 0 1 0 0 0 0 0
Ahora estos datos no encajan muy bien con la distribución de poisson debido a la enorme dispersión de los recuentos cero. Pero con otro modelo, en el que los datos se ajustan bastante bien al modelo de Poisson, y mientras se usa un modelo de Poisson inflado a cero, todavía obtengo resultados muy diferentes de la prueba de Wald y de la prueba de Lrtest. El test de Wald muestra un valor p de 0,03 mientras que el de LRT tiene un valor p de 0,0003. Sigue siendo un factor 100 de diferencia, aunque la conclusión sea la misma.
Entonces, ¿qué es lo que estoy entendiendo incorrectamente aquí con el cociente de probabilidad contra el test de Wald?
0 votos
Cuando se utilizan funciones no estándar de R, como
waldtest
olrtest
Por favor, díganos de qué paquete (ya que hay al menos 20000 paquetes). Hay funciones con esos nombres enlrtest
¿son los que están?