2 votos

¿Puede realizar un ANOVA sobre los valores r (valores de correlación)?

Estoy llevando a cabo una investigación de neuroimagen que produce lo que es esencialmente un análisis correlacional en el que mi resultado es el valor de un cerebro de valores r (así que como 15000 vóxeles de valores r). En este estudio en particular, tengo 3 grupos y quiero tomar estos valores r de cerebros y ver si difieren entre los 3 grupos. En situaciones normales de neuroimagen, cuando se tienen pesos beta, simplemente se hace un ANOVA de 3 vías sobre los pesos beta para obtener un valor F (o un valor t para comparaciones más específicas), así que por defecto asumí que podía hacer lo mismo aquí: un ANOVA de 3 vías con el grupo como factor fijo. Sin embargo, me he dado cuenta de que no estoy seguro de que realizar un ANOVA sobre los valores r sea apropiado. ¿Puede alguien hablar de esto? Si es inapropiado, ¿alguien puede recomendar cómo podría hacer la prueba de las diferencias utilizando estos valores?

Pregunta de seguimiento: También tengo mapas cerebrales con puntuación Z y, en última instancia, me gustaría que las comparaciones se hicieran utilizando las puntuaciones Z. Supongo que si el uso de un ANOVA en los valores r es inadecuado, entonces el uso de uno en los valores r Z también es inadecuado, pero si el uso de un ANOVA está bien con los valores de correlación, asumo que también está bien con los valores de correlación Z.

Supongo que mi pregunta general es: entiendo que no se deben realizar ANOVAs si se producen ciertas violaciones (por ejemplo, de la normalidad) pero ¿hay tipos de VALORES que serían apropiados para realizar ANOVAs?

2voto

Kuro Puntos 81

Uno de los supuestos de un ANOVA es que los datos se distribuyen normalmente dentro de cada celda. Dado que los coeficientes de correlación se limitan a $[0, 1]$ Pero eso no puede ser estrictamente el caso aquí. Si los coeficientes de correlación se calculan a partir de un número "razonablemente grande" de puntos de datos, de manera que la variación de la estimación de las correlaciones sea claramente menor que este intervalo, se mantendrá, sin embargo, de forma aproximada.

Puede mejorar la coincidencia con los supuestos del ANOVA introduciendo no el $r$ s mismos, pero $z$ -valores obtenidos tras aplicar el Transformación de Fisher cuya distribución se acerca más a la normalidad. Además, iguala aproximadamente la varianza de la estimación entre las diferentes celdas, lo que significa que debería poder utilizar un ANOVA sin ajuste por heteroscedasticidad.

Con respecto a $Z$ -puntuación: Si te refieres a valores estandarizados, es decir, algunos datos después de restar la media estimada y dividir por la desviación estándar estimada, es difícil decir algo en general; depende de la distribución de tus datos originales. Si se distribuyen aproximadamente de forma normal, entonces el $Z$ -las puntuaciones serán aproximadamente escaladas- $t$ -que para un número "razonablemente grande" de puntos de datos se acercará de nuevo a una distribución normal. Yo reconsideraría si realmente quieres introducir $Z$ -y cuál sería exactamente la motivación para hacerlo, sobre todo teniendo en cuenta que $Z$ -la puntuación elimina la media mientras que el ANOVA busca las diferencias de medias.

1voto

Dario Castañé Puntos 131

No veo nada malo en realizar un ANOVA sobre los coeficientes de correlación estimados, siempre que se cumplan los supuestos de la prueba ANOVA. A fin de cuentas, lo que se hace es comprobar si las medias de los coeficientes de correlación son iguales en cada uno de los grupos. No hay ningún supuesto de ANOVA que prohíba que los $values$ de la variable independiente que le preocupa.

1voto

dez Puntos 146

También hay independencia que se viola cuando se aplica el ANOVA para diferenciar los grupos de correlaciones. Realicemos una simulación sencilla para comprobar hasta qué punto se puede confiar en el valor p del ANOVA para alguna hipótesis nula sencilla de este tipo.

Generaremos 1e5 muestras aleatorias de 20 sujetos con 10 medidas normalmente distribuidas, cada una de ellas dividida en dos grupos A=(x1,...,x4) y B=(x5,...,x10). Registraremos los valores p del ANOVA de una vía entre tres grupos : "correlaciones dentro de A", "correlaciones dentro de B" y "correlaciones entre A y B".

gAA <- 4
fisherz <- function (rho) { 0.5 * log((1 + rho)/(1 - rho)) }
null.distr <- replicate(1e5,{
  x <- matrix(rnorm(10*20, 0, 1), ncol=10)
  r <- cor(x)
  ut <- upper.tri(r)
  df <- data.frame(row = row(r)[ut], col = col(r)[ut], rho = r[ut])
  df$z <- fisherz(df$rho)
  df$group <- factor( ifelse(df$row<=gAA & df$col<=gAA, "AA",
                  ifelse(df$row>gAA & df$col>gAA, "BB", "AB")) )

  c(p.rho = anova(lm(rho~group,data=df))$"Pr(>F)"[1],
p.z = anova(lm(z~group,data=df))$"Pr(>F)"[1])
})
null.distr <- -log10(null.distr)

pdf("qqplot ANOVA on Pearson correlations.pdf")
par(mfrow=c(2,1))
qqplot(null.distr["p.z",], -log10(runif(n=ncol(null.distr))),
  xlab="p-value, ANOVA on z-transformed Pearson correlations ",ylab="Uniform p-value")
abline(0,1, col=2)
qqplot(null.distr["p.rho",], -log10(runif(n=ncol(null.distr))),
  xlab="p-value, ANOVA on Pearson correlations ",ylab="Uniform p-value")
abline(0,1, col=2)
dev.off()

Si observamos los gráficos QQ, vemos que los valores p del ANOVA son demasiado optimistas y no hay ninguna ganancia visible por utilizar la transformación z. Por otro lado, tenemos todo el derecho a utilizar la distribución nula estimada, convirtiendo p=1e-4 reportado por ANOVA en un valor p "verdadero" de aproximadamente 1e-3. QQ-plot

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X