1 votos

¿Cómo se explica la gran diferencia de valor p entre estos dos modelos?

Ajusté dos modelos gee con dos estructuras de correlación diferentes, intercambiable vs ar(1), que dieron como resultado valores p.muy diferentes. Me pregunto qué razones han llevado a eso. ¿Alguien podría ofrecer una explicación?

> summary(fit1)

Call:
geeglm(formula = LAU ~ SAMPLENO, data = bd, id = MAGE, corstr = "exchangeable")

 Coefficients:
             Estimate   Std.err   Wald Pr(>|W|)    
(Intercept)  0.067349  0.004537 220.32   <2e-16 ***
SAMPLENO    -0.002800  0.000947   8.74   0.0031 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Estimated Scale Parameters:
            Estimate  Std.err
(Intercept) 0.000425 0.000166

Correlation: Structure = exchangeable  Link = identity 

Estimated Correlation Parameters:
      Estimate Std.err
alpha    0.206   0.249
Number of clusters:   9   Maximum cluster size: 8 

> summary(fit2)

Call:
geeglm(formula = LAU ~ SAMPLENO, data = bd, id = MAGE, corstr = "ar1")

 Coefficients:
            Estimate  Std.err   Wald Pr(>|W|)    
(Intercept)  0.06392  0.00588 118.25   <2e-16 ***
SAMPLENO    -0.00142  0.00219   0.42     0.52    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Estimated Scale Parameters:
            Estimate  Std.err
(Intercept) 0.000427 0.000172

Correlation: Structure = ar1  Link = identity 

Estimated Correlation Parameters:
      Estimate Std.err
alpha    0.659   0.221
Number of clusters:   9   Maximum cluster size: 8

2voto

JMW.APRN Puntos 21

Es una muy buena pregunta. Las estructuras de correlación exchangeable y ar1 pueden "explicar" diferentes cantidades de la varianza de la variable de respuesta LAU lo que justificará o no la necesidad de predictores adicionales.

Intentaré dar un ejemplo intuitivo. Imaginemos que LAU es un AR(1) proceso. En este caso, el predictor SAMPLENO es inútil y puede eliminarse del modelo, por lo que cabría esperar obtener un valor p no significativo al comprobar la nulidad de este término en la fórmula segundo modelo .

Las cosas serían diferentes si se utilizara el primer modelo . En este caso, la estructura de correlación intercambiable puede ser una mala descripción, porque se supone que la correlación entre dos observaciones diferentes es una constante que no depende de su momento de ocurrencia (y esta suposición es falsa en el caso de los procesos AR(1)). Esta especificación errónea daría lugar a un modelo de error incorrecto para los residuos, y muy probablemente daría una subestimación de su varianza al ajustar el modelo. Esto, a su vez, explicaría por qué SAMPLENO se asocia repentinamente a un valor p significativo. La dependencia temporal que no pudo captar el modelo intercambiable se filtraría ahora a este predictor (que parece ser de tiempo discreto, como su nombre indica).

Algo parecido ocurre a veces en la situación más sencilla de un $t$ -prueba. Un supuesto clave es que el muestreo es IID, pero si hay alguna correlación entre los valores (se podría imaginar que se toman de un proceso AR(1), por ejemplo), la fórmula habitual para la varianza es incorrecta y da una estimación demasiado baja. Como resultado, la distribución esperada de la media es demasiado estrecha, lo que significa que la hipótesis nula se rechaza con demasiada frecuencia.

En todos esos casos, recuerde que rechazar la hipótesis nula significa que parece que le pasa algo . Pero esta algo podría ser cualquiera de las suposiciones que hiciste, incluyendo

  1. la distribución de la observación
  2. la estructura de correlación entre ellos
  3. la nulidad de un parámetro.

En resumen, el valor p del primer modelo es significativo probablemente porque la estructura de correlación intercambiable es una mala descripción, no porque SAMPLENO es un buen indicador.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X