20 votos

Ratio de probabilidad vs. Prueba de Wald

Por lo que he estado leyendo, entre otros en el sitio de la El grupo consultor de estadísticas de la UCLA Las pruebas de proporción de probabilidad y las pruebas de Wald son bastante similares para probar si dos modelos de Glm muestran una diferencia significativa en el ajuste de un conjunto de datos (disculpe si mi redacción puede estar un poco fuera de lugar). En esencia, puedo comparar dos modelos y probar si el segundo modelo muestra un ajuste significativamente mejor que el primero, o si no hay diferencia entre los modelos.

Así que los tests de LR y Wald deberían mostrar los mismos valores p para los mismos modelos de regresión. Por lo menos la misma conclusión debería salir.

Ahora hice ambas pruebas para el mismo modelo en R y obtuve resultados muy diferentes. Aquí están los resultados de R para un modelo:

> lrtest(glm(data$y~1),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test

Model 1: data$y ~ 1
    Model 2: data$y ~ data$site_name
      #Df  LogLik Df  Chisq Pr(>Chisq)    
    1   2 -89.808                         
    2   9 -31.625  7 116.37  < 2.2e-16 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    > lrtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test

Model 1: data$y ~ 1
    Model 2: data$y ~ data$site_name
      #Df  LogLik Df  Chisq Pr(>Chisq)    
    1   1 -54.959                         
    2   9 -31.625  8 46.667  1.774e-07 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    > waldtest(glm(data$y~data$site_name,family="poisson"))
Wald test

Model 1: data$y ~ data$site_name
Model 2: data$y ~ 1
      Res.Df Df      F Pr(>F)
    1     45                 
    2     53 -8 0.7398 0.6562
    > waldtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Wald test

Model 1: data$y ~ 1
    Model 2: data$y ~ data$site_name
  Res.Df Df      F Pr(>F)
1     53                 
2     45  8 0.7398 0.6562

Sobre los datos, los datos \$y contains count data and data\$ site_name es un factor con 9 niveles. Hay 54 valores en los datos \$y, with 6 values per level of data\$ nombre del sitio.

Aquí están las distribuciones de frecuencia:

> table(data$y)

 0  2  4  5  7 
50  1  1  1  1 
> table(data$y,data$site_name)

    Andulay Antulang Basak Dauin Poblacion District 1 Guinsuan Kookoo's Nest Lutoban Pier Lutoban South Malatapay Pier
  0       6        6     6                          4        6             6            6             5              5
  2       0        0     0                          0        0             0            0             1              0
  4       0        0     0                          1        0             0            0             0              0
  5       0        0     0                          0        0             0            0             0              1
  7       0        0     0                          1        0             0            0             0              0

Ahora estos datos no encajan muy bien con la distribución de poisson debido a la enorme dispersión de los recuentos cero. Pero con otro modelo, en el que los datos se ajustan bastante bien al modelo de Poisson, y mientras se usa un modelo de Poisson inflado a cero, todavía obtengo resultados muy diferentes de la prueba de Wald y de la prueba de Lrtest. El test de Wald muestra un valor p de 0,03 mientras que el de LRT tiene un valor p de 0,0003. Sigue siendo un factor 100 de diferencia, aunque la conclusión sea la misma.

Entonces, ¿qué es lo que estoy entendiendo incorrectamente aquí con el cociente de probabilidad contra el test de Wald?

0 votos

Cuando se utilizan funciones no estándar de R, como waldtest o lrtest Por favor, díganos de qué paquete (ya que hay al menos 20000 paquetes). Hay funciones con esos nombres en lrtest ¿son los que están?

21voto

jsakaluk Puntos 544

Es importante señalar que, aunque la prueba del cociente de probabilidad y la prueba de Wald son utilizadas por los investigadores para lograr el mismo objetivo empírico, están probando diferentes hipótesis . La prueba de proporción de probabilidad evalúa si es probable que los datos procedan de un modelo más complejo, frente a un modelo más simple. En otras palabras, ¿la adición de un efecto particular permite al modelo dar cuenta de más información. La prueba de Wald, por el contrario, evalúa si es probable que el efecto estimado pueda ser cero. Es una diferencia matizada, por supuesto, pero una importante diferencia conceptual, sin embargo.

Agresti (2007) contrasta la prueba de proporción de probabilidad, la prueba de Wald y un tercer método llamado "prueba de puntuación" (apenas profundiza en esta prueba). De su libro (p. 13):

Cuando el tamaño de la muestra es pequeño o moderado, la prueba de Wald es la menos fiable de las tres pruebas. No debemos confiar en ella para una n tan pequeña como en este ejemplo ( n \= 10). La inferencia del ratio de probabilidad y la inferencia basada en la prueba de puntuación son mejores en términos de probabilidades de error reales que se acercan a los niveles nominales. Una marcada divergencia en los valores de las tres estadísticas indica que la distribución del estimador de ML puede estar lejos de la normalidad. En ese caso, los métodos de muestras pequeñas son más apropiados que los métodos de muestras grandes.

Si se observan los datos y los resultados, parece que la muestra es relativamente pequeña y, por lo tanto, es posible que se desee dar mayor importancia a los resultados de la prueba del cociente de probabilidad en comparación con los resultados de la prueba de Wald.

Referencias

Agresti, A. (2007). Una introducción al análisis de datos categóricos (2ª edición) . Hoboken, NJ: John Wiley & Sons.

3voto

Mikael Sundberg Puntos 1949

Las dos pruebas son asintóticamente equivalentes. Por supuesto, su rendimiento (tamaño y potencia) en muestras finitas puede diferir. Lo mejor que puede hacer para entender la diferencia es realizar un estudio de Monte Carlo para un escenario similar al suyo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X