Estoy interesado en por qué dependen de las observaciones son un problema en las estadísticas. Digamos que usted desea saber si existe una diferencia en la media de los puntajes de los exámenes entre las dos escuelas. Recoger 50 observaciones en cada escuela. Estos 50 observaciones se derivan de 5 aulas diferentes en cada escuela y hay dependencia dentro de las aulas. En este caso, ¿cómo serían los resultados de la prueba t de ser afectado y cómo podrían conducir a conclusiones erróneas?
Respuestas
¿Demasiados anuncios?El valor de p para la prueba de t se calcula bajo el supuesto de que todas las observaciones son independientes. La computación de las probabilidades (tales como el p-valor) es mucho más difícil cuando usted está tratando con variables dependientes, y no siempre es fácil ver que, matemáticamente, donde las cosas van mal en la prueba de la presencia de la dependencia. Sin embargo, podemos fácilmente ilustrar el problema con una simulación.
Considere el caso, por ejemplo, donde hay 5 aulas en cada una de las dos escuelas, con 10 estudiantes en cada clase. Bajo el supuesto de normalidad, el valor p de la prueba debe estar uniformemente distribuido en el intervalo de $(0,1)$ si no hay ninguna diferencia en la media de las puntuaciones de los test entre todas las aulas. Es decir, si hemos realizado una gran cantidad de estudios como este y se representa un histograma de todos los valores de p, debería parecerse a la caja en forma de una distribución uniforme.
Sin embargo, si hay somewithin-aula de correlación entre los estudiantes de los resultados de los p-valores no se comportan como deberían. Una correlación positiva (como uno podría esperar aquí) a menudo llevan a los valores de p que son demasiado pequeños, por lo que la hipótesis nula será rechazada, demasiado a menudo, cuando de hecho es verdadera. Una R de simulación ilustra este se pueden encontrar a continuación. 1000 estudios de las dos escuelas son simuladas para diferentes dentro del aula correlaciones. Los p-valores de la correpsonding t-test se muestran en los histogramas de la figura. Están distribuidos de manera uniforme cuando no hay una correlación, pero no lo contrario. En la simulación, se asume que no existen diferencias de medias entre los salones de clase, y que todas las clases tienen el mismo dentro del aula de correlación.
La consecuencia de este fenómeno es que el tipo de la tasa de error de la prueba de t se forma fuera de si hay dentro del aula correlaciones presentes. Como un ejemplo, una prueba t al 5 % de nivel es, de hecho, aproximadamente en el 25 % si el plazo de aula de correlación es de 0,1! En otras palabras, el riesgo de que falsamente rechazar la hipótesis nula aumenta dramáticamente cuando las observaciones son dependientes.
Tenga en cuenta que los ejes difieren algo entre los histogramas.
R código:
library(MASS)
B1<-1000
par(mfrow=c(3,2))
for(correlation in c(0,0.1,0.25,0.5,0.75,0.95))
{
# Create correlation/covariance matrix and mean vector
Sigma<-matrix(correlation,10,10)
diag(Sigma)<-1
mu<-rep(5,10)
# Simulate B1 studies of two schools A and B
p.value<-rep(NA,B1)
for(i in 1:B1)
{
# Generate observations of 50 students from school A
A<-as.vector(mvrnorm(n=5,mu=mu,Sigma=Sigma))
# Generate observations of 50 students from school B
B<-as.vector(mvrnorm(n=5,mu=mu,Sigma=Sigma))
p.value[i]<-t.test(A,B)$p.value
}
# Plot histogram
hist(p.value,main=paste("Within-classroom correlation:",correlation),xlab="p-value",cex.main=2,cex.lab=2,cex.axis=2)
}
El problema sería que la comparación de las dos escuelas de esta manera se mezcla la universidad de efectos a nivel de aula a nivel de efectos. Un modelo mixto permita desentrañar estos. Si usted no está interesado en el esclarecimiento de ellos, usted debe tomar en cuenta el clúster de muestreo (aunque mucha gente no lo hace).
@Nico 's comentario anterior se presenta a un problema aquí: Supongamos que un profesor en una escuela es muy buena, y que él/ella pasa a ser uno de los profesores elegido?
Pero otro problema es que los estudiantes en cada clase va a ser más similares entre sí que van a ser a los otros estudiantes de la misma universidad en todo tipo de formas: las Diferentes asignaturas dibujar diferentes tipos de estudiantes por edad, género, experiencia, solidez académica y la debilidad etc.
No hay nada de malo con la prueba que se describe porque usted tomó una muestra de ambas escuelas de una manera justa. Dependiente de observaciones entran en juego cuando hay otra variable en el que las muestras dependen. I. e., en una de las escuelas de una sola clase se ha mostrado y se decidió tomar los resultados de 50 personas dentro de esta clase de pensamiento que va a estar bien. Pero dentro de la escuela, el resultado depende de una clase, así que usted no puede hacer esto de esta manera y va a dar un mal resultado que no se puede detectar por cualquier prueba estadística... es solo un mal diseño experimental.
Pero creo que la gente está hablando acerca de dependientes observaciones desde diferentes puntos de vista por lo general. Es cuando se piensa que se puede derivar de las distribuciones de los errores y de las muestras se basa en suposiciones de independencia (la mayoría de las fórmulas estándar de suponer que), mientras que cuando sus resultados dependen unos de otros esas normas no son exactas en todos los...