35 votos

¿Puede el ANOVA ser significativo cuando ninguna de las pruebas t por pares lo es?

¿Es posible que un solo sentido (con $N>2$ grupos, o "niveles") ANOVA para informar de una diferencia significativa cuando ninguno de los $N(N-1)/2$ ¿las pruebas t por pares?

En esta respuesta @whuber escribió:

Es bien sabido que una prueba F global de ANOVA puede detectar una diferencia de medias incluso en los casos en que ninguna prueba t individual [no ajustada por pares] de cualquiera de los pares de medias arroje un resultado significativo.

así que aparentemente es posible, pero no entiendo cómo. ¿Cuándo ocurre y cuál sería la intuición detrás de tal caso? ¿Quizás alguien pueda dar un ejemplo sencillo de juguete de una situación así?

Algunas observaciones adicionales:

  1. Lo contrario es claramente posible: el ANOVA global puede ser no significativo mientras que algunas de las pruebas t por pares informan erróneamente de diferencias significativas (es decir, serían falsos positivos).

  2. Mi pregunta se refiere a las pruebas t estándar, no ajustadas para comparaciones múltiples. Si se utilizan pruebas ajustadas (como, por ejemplo, el procedimiento HSD de Tukey), es posible que ninguna de ellas resulte significativa aunque el ANOVA general lo sea. Esto se trata aquí en varias preguntas, por ejemplo ¿Cómo puedo obtener un ANOVA global significativo pero sin diferencias significativas por pares con el procedimiento de Tukey? y Interacción ANOVA significativa pero comparaciones por pares no significativas .

  3. Actualización. Mi pregunta se refería originalmente a la habitual dos muestras pruebas t por pares. Sin embargo, como señaló @whuber en los comentarios, en el contexto de ANOVA, las pruebas t se entienden normalmente como post hoc contrastes utilizando la estimación ANOVA de la varianza dentro del grupo, agrupada en todos los grupos (que no es lo que ocurre en una prueba t de dos muestras). Así que hay dos versiones diferentes de mi pregunta, y la respuesta a ambas resulta ser positiva. Véase más abajo.

21voto

AdamSane Puntos 1825

Nota: Había algo mal en mi ejemplo original. Estúpidamente fui atrapado por el reciclaje de argumentos silenciosos de R. Mi nuevo ejemplo es bastante similar al anterior. Espero que todo esté bien ahora.

Aquí hay un ejemplo que hice que tiene el ANOVA significativo al nivel del 5% pero ninguna de las 6 comparaciones por pares son significativas, incluso al nivel del 5%. .

Estos son los datos:

g1:  10.71871  10.42931   9.46897   9.87644
g2:  10.64672   9.71863  10.04724  10.32505  10.22259  10.18082  10.76919  10.65447 
g3:  10.90556  10.94722  10.78947  10.96914  10.37724  10.81035  10.79333   9.94447 
g4:  10.81105  10.58746  10.96241  10.59571

enter image description here

Aquí está el ANOVA:

             Df Sum Sq Mean Sq F value Pr(>F)  
as.factor(g)  3  1.341  0.4469   3.191 0.0458 *
Residuals    20  2.800  0.1400        

Aquí están los valores p de la prueba t de dos muestras (hipótesis de varianza igual):

        g2     g3     g4
 g1   0.4680 0.0543 0.0809 
 g2          0.0550 0.0543 
 g3                 0.8108

Con un poco más de manipulación de las medias de los grupos o de los puntos individuales, la diferencia de significación podría ser más llamativa (en el sentido de que podría hacer más pequeño el primer valor p y más alto el más bajo del conjunto de seis valores p de la prueba t).

--

Editar: Aquí hay un ejemplo adicional que se generó originalmente con el ruido sobre una tendencia, que muestra cuánto mejor se puede hacer si se mueven los puntos un poco:

g1:  7.27374 10.31746 10.54047  9.76779
g2: 10.33672 11.33857 10.53057 11.13335 10.42108  9.97780 10.45676 10.16201
g3: 10.13160 10.79660  9.64026 10.74844 10.51241 11.08612 10.58339 10.86740
g4: 10.88055 13.47504 11.87896 10.11403

La F tiene un valor p inferior al 3% y ninguna de las t tiene un valor p inferior al 8%. (Para un ejemplo de 3 grupos - pero con un valor p algo mayor en la F - omita el segundo grupo)

Y aquí hay un ejemplo realmente sencillo, aunque más artificial, con 3 grupos:

g1: 1.0  2.1
g2: 2.15 2.3 3.0 3.7 3.85
g3: 3.9  5.0

(En este caso, la mayor varianza se encuentra en el grupo medio, pero debido al mayor tamaño de la muestra, el error estándar de la media del grupo sigue siendo menor)


Pruebas t de comparaciones múltiples

Whuber me sugirió que considerara el caso de las comparaciones múltiples. Resulta bastante interesante.

El caso de las comparaciones múltiples (todas realizadas al nivel de significación original, es decir, sin ajustar alfa para las comparaciones múltiples) es algo más difícil de conseguir, ya que jugar con varianzas más grandes y más pequeñas o con más y menos f.d. en los diferentes grupos no ayuda de la misma manera que con las pruebas t ordinarias de dos muestras.

Sin embargo, todavía tenemos las herramientas para manipular el número de grupos y el nivel de significación; si elegimos más grupos y niveles de significación más pequeños, vuelve a ser relativamente sencillo identificar los casos. He aquí uno:

Tome ocho grupos con $n_i=2$ . Defina los valores de los cuatro primeros grupos como (2,2,5) y los de los cuatro últimos como (3,5,4), y tome $\alpha=0.0025$ (decir). Entonces tenemos una F significativa:

> summary(aov(values~ind,gs2))
            Df Sum Sq Mean Sq F value  Pr(>F)   
ind          7      9   1.286   10.29 0.00191 
Residuals    8      1   0.125                   

Sin embargo, el valor p más pequeño en las comparaciones por pares no es significativo a ese nivel:

> with(gs2,pairwise.t.test(values,ind,p.adjust.method="none"))

        Pairwise comparisons using t tests with pooled SD 

data:  values and ind 

   g1     g2     g3     g4     g5     g6     g7    
g2 1.0000 -      -      -      -      -      -     
g3 1.0000 1.0000 -      -      -      -      -     
g4 1.0000 1.0000 1.0000 -      -      -      -     
g5 0.0028 0.0028 0.0028 0.0028 -      -      -     
g6 0.0028 0.0028 0.0028 0.0028 1.0000 -      -     
g7 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 -     
g8 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 1.0000

P value adjustment method: none

4voto

Brandon Grossutti Puntos 140

Resumen: Creo que es posible, pero muy, muy improbable. La diferencia será pequeña, y si ocurre, es porque se ha violado un supuesto (como la homocedasticidad de la varianza).

Aquí hay un código que busca esa posibilidad. Nótese que incrementa la semilla en 1 cada vez que se ejecuta, de modo que la semilla se almacena (y la búsqueda a través de las semillas es sistemática).

stopNow <- FALSE
counter <- 0
while(stopNow == FALSE) {
  counter <- counter + 1
  print(counter)
  set.seed(counter)
  x <- rep(c(0:5), 100)
  y <- rnorm(600) + x * 0.01
  df  <-as.data.frame( cbind(x, y))
  df$x <- as.factor(df$x)
  fit <- (lm(y ~ x, data=df))
  anovaP <- anova(fit)$"Pr(>F)"[[1]]
       minTtestP <- 1
      for(loop1 in c(0:5)){
        for(loop2 in c(0:5)) {
          newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y)$p.value
      minTtestP <- min(minTtestP, newTtestP )    
      }
   }

  if(minTtestP > 0.05 & anovaP < 0.05) stopNow <- TRUE 
  cat("\nminTtestP = ", minTtestP )
  cat("\nanovaP = ", anovaP )
  cat("\nCounter = ", counter, "\n\n" )
}

Buscando un R2 significativo y sin pruebas t no significativas no he encontrado nada hasta una semilla de 18.000. Buscando un valor p más bajo de R2 que de las pruebas t, obtengo un resultado en la semilla = 323, pero la diferencia es muy, muy pequeña. Es posible que ajustar los parámetros (¿aumentar el número de grupos?) pueda ayudar. La razón por la que el valor p de R2 puede ser menor es que cuando se calcula el error estándar de los parámetros en la regresión, se combinan todos los grupos, por lo que el error estándar de la diferencia es potencialmente menor que en la prueba t.

Me preguntaba si violar la heteroscedasticidad podría ayudar (por así decirlo). Lo hace. Si utilizo

y <- (rnorm(600) + x * 0.01) * x * 5

Para generar la y, entonces encuentro un resultado adecuado en la semilla = 1889, donde el valor p mínimo de las pruebas t es 0,061 y el valor p asociado a R-cuadrado es 0,046.

Si varío los tamaños de los grupos (lo que aumenta el efecto de la violación de la heteroscedasticidad), sustituyendo el muestreo de x por:

x <- sample(c(0:5), 100, replace=TRUE)

Obtengo un resultado significativo en la semilla = 531, con el valor p mínimo de la prueba t en 0,063 y el valor p de R2 en 0,046.

Si dejo de corregir la heteroscedasticidad en la prueba t, utilizando

newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y, var.equal = TRUE)$p.value

Mi conclusión es que es muy improbable que esto ocurra, y es probable que la diferencia sea muy pequeña, a menos que hayas violado el supuesto de homocedasticidad en la regresión. Intente realizar su análisis con una corrección robusta/sandwich/como quiera llamarla.

2voto

Mohammadreza Puntos 1964

Es totalmente posible:

  • Una o más pruebas t por pares son significativas pero la prueba F general no lo es
  • La prueba F global es significativa, pero ninguna de las pruebas t por pares es

La prueba F global comprueba todos los contrastes simultáneamente . Como tal, debe ser menos sensible (menos poder estadístico) a los contrastes individuales (por ejemplo, una prueba por pares). Las dos pruebas están estrechamente relacionadas entre sí, pero son no informando exactamente de lo mismo.

Como puede ver, la recomendación de los libros de texto de no hacer comparaciones planificadas a menos que la prueba F global sea significativa no siempre es correcta. De hecho, la recomendación puede impedirnos encontrar diferencias significativas porque la prueba F global tiene menos potencia que las comparaciones planificadas para probar las diferencias específicas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X