6 votos

Debo ajustar los valores de p en la investigación de un ANOVA de interacción?

Estoy llevando a cabo un experimento para comparar los 4 tipos de audífonos. Estoy interesado en saber si los auriculares se diferencian en su calidad subjetiva.

Treinta sujetos escucharon cada par de auriculares varias veces y calificación de los audífonos de calidad. Mi variable dependiente es la calidad de sonido, y mis dos variables independientes son auriculares de tipo (3 tipos) y sujeto (30 sujetos). Para cada uno de los auriculares, sujeto combinación, he recopilado 12 calificaciones (12 repeticiones).

Un anova de dos vías elaborado la siguiente tabla. Se muestra un significativo efecto de la interacción entre los auriculares y el sujeto. Esto parece indicar que los sujetos no están de acuerdo en sus índices de popularidad de los auriculares.

                        Df Sum Sq Mean Sq F value   Pr(>F)    
headphone                2   2933    1466   4.116   0.0165 *  
subject                 29 165500    5707  16.022  < 2e-16 ***
headphone:subject       58  46897     809   2.270 3.24e-07 ***
Residuals             1350 480869     356    

Un examen de los datos mostró que muchos sujetos no pudo distinguir entre los auriculares. Es decir, las calificaciones de la calidad que le dieron a cada no parecen diferentes el uno del otro. El siguiente gráfico, por ejemplo, muestra los datos de cinco sujetos. Las medianas (líneas rojas) parecen casi iguales para los temas 1 y 5.

enter image description here

La siguiente pregunta que me gustaría responder es "¿cuántos de los 30 sujetos de forma fiable puede discriminar entre los 3 tipos de audífonos". O, en términos estadísticos, "¿para cuántas asignaturas puedo rechazar la hipótesis nula de que la media de las calificaciones son iguales".

Mi primer instinto para responder a esta pregunta era para ejecutar un anova de una vía en cada sujeto (IV, tipo de auriculares), y rechazar la nula si $p$ estaba por debajo de mi $\alpha$ (0.05). En más de reflexión, me di cuenta de que este enfoque me iba a dar muchos falsos positivos: algunos temas, sería probable que el rendimiento de $p < 0.05$ sólo por azar.

Si quiero determinar cuántas asignaturas puede discriminar entre los auriculares, debo usar ajustar los valores de p para estos 30 el análisis de la varianza? (I. e. debo ajustar el $p$s a la dirección de la el problema de las comparaciones múltiples utilizando, por ejemplo, Holm-corrección de Bonferroni?)

5voto

Yanick Rochon Puntos 173

Esto no se puede responder a su pregunta, pero usted puede mirar en modelos de efectos mixtos, que permiten el control para los sujetos de variación del nivel ("Joe siempre estimaciones de alta") sin llegar a la estimación de los coeficientes para cada sujeto. Esto le permite obtener en el original de la pregunta que se plantea: "¿los auriculares difieren en calidad subjetiva?" sin correr el análisis de la varianza de los treinta y tratando de comparar los resultados.

3voto

zowens Puntos 1417

La siguiente pregunta que me gustaría responder es "¿cuántos de los 30 sujetos de forma fiable puede discriminar entre los 3 tipos de audífonos"

Sí, el uso de $p<0.05$ criterio llevará a varios falsos positivos esperados por azar. Usted debe utilizar algún método formal de pruebas múltiples ajustes, o quizás simplemente bajar el punto de corte un poco más conservador, pero todavía valor convencional, como por ejemplo,$p<0.01$$p<0.001$.

Además, o incluso en lugar de ello, me permito sugerir la mirada en el $p$-de valores para todos los 30 sujetos. Entonces, en lugar de la escritura que, por ejemplo, "23 de los 30 sujetos de forma fiable puede discriminar entre tipos de audífonos" usted será capaz de decir algo como "20 sujetos podían distinguir claramente entre los tipos de audífonos ($p<0.001$), 7 sujetos claramente no podía ($p>0.1$) y 3 sujetos cayeron en algún lugar entre".

Por último, tenga en cuenta que incluso una pequeña $p$-valor no significa que la discriminación es "confiable". Para mí, "confiable" se refiere más bien al tamaño del efecto, por ejemplo, me gustaría llamar a decir que un sujeto que puede nombrar el tipo de auriculares, superior, por ejemplo, el 90% de exactitud es confiable. Pero con 12 repeticiones para cada tipo de, usted puede conseguir significativa (altamente significativo), pero todavía muy pequeña diferencia, correspondiente, por ejemplo, para el 40% de precisión. Puede ser por encima del azar (33%), pero es poco fiable.

2voto

rnso Puntos 2424

Normalmente los sujetos se mantienen en el término de Error para reducir el efecto de la variabilidad interindividual, pero su objetivo es determinar qué temas son significativamente diferentes de los demás. Usted puede tomar la ayuda de gráficos para identificar a estos sujetos. Para cada tema se puede determinar el rango de clasificación (max clasificación - min rating) y la trama ellos:

enter image description here

A continuación, puede determinar si existen valores atípicos o aquellos que están por debajo de 2.5 o más 97.5 th percentiles.

También, las parcelas a partir de análisis de regresión puede ser utilizado. Si los datos se organizan de la siguiente manera (nota de los datos es diferente de la de arriba de la trama):

   subject variable value
1        A  headph1     4
2        B  headph1     5
3        C  headph1     6
4        D  headph1     5
5        E  headph1     4
6        F  headph1     2

mod = lm(value~variable+subject, mydata)

Gráficos de residuos muestran que las lecturas son valores atípicos:

plot(mod)

enter image description here

Tenga en cuenta que los valores atípicos son numeradas en las parcelas anteriormente.

> library(car)
> crPlots(mod)

enter image description here

Nota sujeto F es claramente de pie aquí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X