Ahora entiendo mucho mejor lo que me preocupaba sobre las pruebas t emparejadas frente a las no emparejadas, y los valores p asociados. Descubrirlo ha sido un viaje interesante, y ha habido muchas sorpresas en el camino. Una de las sorpresas ha sido la investigación de la contribución de Michael. Es irreprochable en cuanto a consejos prácticos. Además, dice lo que creo que creen prácticamente todos los estadísticos, y tiene varios upvotes que lo respaldan. Sin embargo, como pieza de teoría, no es literalmente correcta. Lo descubrí elaborando las fórmulas para los valores p, y luego pensando cuidadosamente cómo utilizar las fórmulas para llevar a los contraejemplos. Soy matemático de formación, y el contraejemplo es un "contraejemplo matemático". No es algo que se encuentre en la estadística práctica, pero fue el tipo de cosas que estaba tratando de averiguar cuando hice mi pregunta original.
Aquí está el código R que da el contraejemplo:
vLength <- 10; meanDiff <-10^9; numSamples <- 3;
pv <- function(vLength,meanDiff) {
X <- rnorm(vLength)
Y <- X - meanDiff + rnorm(vLength,sd=0.0001)
Paired <- t.test(X,Y,var.equal=T,paired=T)
NotPaired <- t.test(X,Y,var.equal=T,paired=F)
c(Paired$p.value,NotPaired$p.value,cov(X,Y))
}
ans <- replicate(numSamples,pv(vLength,meanDiff))
Tenga en cuenta las siguientes características: X e Y son dos 10-tuplas cuya diferencia es enorme y casi constante. Con muchas cifras significativas, la correlación es de 1,000.... El valor p de la prueba no emparejada es unas 10^40 veces menor que el valor p de la prueba emparejada. Así que esto contradice el relato de Michael, siempre que uno lea su relato literalmente, al estilo matemático. Aquí termina la parte de mi respuesta relacionada con la respuesta de Michael.
Estas son las reflexiones que suscita la respuesta de Peter. Durante la discusión de mi pregunta original, conjeturé en un comentario que dos distribuciones particulares de valores p que suenan diferentes son en realidad la misma. Ahora puedo demostrarlo. Lo que es más importante es que la prueba revela la naturaleza fundamental de un valor p, tan fundamental que ningún texto (que yo haya encontrado) se molesta en explicar. Puede que todos los estadísticos profesionales conozcan el secreto, pero a mí la definición de valor p siempre me ha parecido extraña y artificial. Antes de desvelar el secreto del estadístico, permítanme especificar la pregunta.
Dejemos que $n>1$ y elegir al azar y de forma independiente dos $n$ -de una distribución normal. Hay dos formas de obtener un valor p a partir de esta elección. Una es utilizar una prueba t no emparejada, y la otra es utilizar una prueba t emparejada. Mi conjetura era que la distribución de los valores p que se obtiene es la misma en los dos casos. Cuando me puse a pensar en ello, decidí que esta conjetura había sido temeraria y era falsa: la prueba no emparejada está asociada a un estadístico t sobre $2(n-1)$ grados de libertad, y la prueba emparejada a un estadístico t en $n-1$ grados de libertad. Estas dos distribuciones son diferentes, así que ¿cómo es posible que las distribuciones asociadas de los valores p sean iguales? Sólo después de pensarlo mucho más me di cuenta de que esta obvia desestimación de mi conjetura era demasiado fácil.
La respuesta proviene de las siguientes consideraciones. Supongamos que $f:(0,\infty)\to (0,\infty)$ es una pdf continua (es decir, su integral tiene valor uno). Un cambio de coordenadas convierte la distribución asociada en la distribución uniforme en $[0,1]$ . La fórmula es $$p=\int_t^\infty f(s)\,ds$$ y esto se explica en muchos textos. Lo que los textos no señalan en el contexto de los valores p es que esto es exactamente la fórmula que da el valor p del estadístico t, cuando $f$ es el pdf de la distribución t. (Estoy tratando de mantener la discusión tan simple como puedo, porque realmente es simple. Una discusión más completa trataría las pruebas t de una y dos caras de forma ligeramente diferente, podrían surgir factores de 2, y el estadístico t podría estar en $(-\infty,\infty)$ en lugar de en $[0,\infty)$ . Omití todo ese desorden).
Exactamente la misma discusión se aplica cuando se encuentra el valor p asociado a cualquiera de las otras distribuciones estándar en estadística. Una vez más, si los datos se distribuyen aleatoriamente (esta vez según alguna distribución diferente), los valores p resultantes se distribuirán uniformemente en $[0,1]$ .
¿Cómo se aplica esto a nuestras pruebas t emparejadas y no emparejadas? La cuestión es que en la prueba t emparejada, con muestras elegidas de forma independiente y aleatoria, como en mi código anterior, el valor de t sigue efectivamente una distribución t (con $n-1$ grados de libertad). Así que los valores p que resultan de replicar la elección de X e Y muchas veces siguen la distribución uniforme en $[0,1]$ . Lo mismo ocurre con la prueba t no apareada, aunque esta vez la distribución t tiene $2(n-1)$ grados de libertad. Sin embargo, los valores p resultantes también tienen una distribución uniforme en $[0,1]$ por el argumento general que he dado más arriba. Si se aplica el código de Peter anterior para determinar los valores p, entonces obtenemos dos métodos distintos para extraer una muestra aleatoria de la distribución uniforme en $[0,1]$ . Sin embargo, las dos respuestas no son independientes.