Creo que es importante distinguir claramente entre
una. el uso de un paramétrica estadística en el ranking como la base para una prueba no paramétrica
b. el uso de una prueba paramétrica como es, en las filas
(también podríamos considerar la posibilidad de una tercera opción, como en "b". pero de alguna manera la escala o el ajuste de la estadística para obtener una mejor aproximación a la "verdad" p-valor de las tablas. Voy a ignorar esta posibilidad por ahora, pero puede ser un fructífero esfuerzo.)
En el primer caso, podríamos calcular la estadística como de costumbre, pero a la hora de encontrar el valor de p buscaríamos en la distribución del estadístico de prueba bajo el null. En particular, la no-paramétrico basado en clasificación de las pruebas son pruebas de permutación (que - debido a que el conjunto de filas se fija para cada tamaño de la muestra, para distribuciones continuas - no dependen de los específicos valores observados). De modo que podemos calcular las permutaciones de distribución de la prueba paramétrica aplicada a las filas.
Cuando hacemos lo que hacemos, de hecho, a veces conseguir una prueba de eso es el equivalente a un conocido test no paramétricos (equivalente en este caso significa que las "ordenes" el conjunto de posibles muestras del mismo modo, por lo que siempre va a dar los mismos valores de p)
En el segundo caso, simplemente nos ignoran que hemos filas y el tratamiento de las filas como si fueran muestras independientes de lo que el supuesto de la distribución. Que no dan el mismo valor de p, como el test no paramétrico de la prueba. De hecho, en pequeñas muestras de la distribución no puede ser a la derecha. Sin embargo, para algunas pruebas, en muestras de mayor tamaño puede llegar a ser bastante estrecha, y, a continuación, las pruebas que se tienen sobre el derecho de los niveles de significación. Cuando eso sucede, los valores de p puede ser bastante similar a lo que fueron en el primer caso.
Podemos ver esto con el ordinario de la igualdad de la varianza de dos muestras de la prueba t vs el test de Wilcoxon:
El primer diagrama nos muestra que, de hecho, en este ejemplo los valores de p para cada una de las muestras están en el mismo orden (la monotonía indica que las "pruebas equivalentes" en virtud de la parte a se sostiene-como ya es conocido por este par de pruebas). También es alentador porque se ve como el p-vaue pares están muy cerca de la $y=x$ línea. El segundo gráfico muestra la diferencia en los p-valores. Ahora podemos ver que el t-test aplicado directamente a las filas como si fueran yo.yo.d normal de los datos da los valores de p que son casi siempre más baja que la de Wilcoxon-Mann-Whitney (y, de hecho, normalmente muy baja).
[Otros tamaños de la muestra muestran patrones similares - a igualdad de tamaños de la muestra de la amplia forma del patrón de diferencias sigue siendo, pero la escala en el eje de la segunda trama se hace más pequeño como el tamaño de la muestra se va para arriba; en el desigual tamaño de la muestra en la forma de la segunda parcela de cambios, pero el menor p-valores de la t sigue.]
Por lo que si utilizamos la prueba como en la "b"., rechazamos demasiado a menudo en cualquier nivel de significación.
Sin embargo, dado que la diferencia se hace más pequeño como el tamaño de la muestra aumenta, si ambas muestras son grandes, puede que esto no nos molestó mucho.
(Tenga en cuenta que esta discusión no se ha investigado el poder aún, ni ninguna otra de las pruebas que esta simple comparación, pero muchos de los puntos que he hecho va a llevar a otras pruebas.)
Oh, supongo que la gente quiere código. Yo lo hice en R:
n1=40;n=n1+n1
res=replicate(1000,{v=sample(n);
c(t.test(v[1:n1],v[(n1+1):n],var.equal=TRUE)$p.value,
wilcox.test(v[1:n1],v[(n1+1):n])$p.value)
})
tenga en cuenta que v
contiene el actual azar permutación de filas bajo el null
Toma un segundo en mi portátil. Tenga en cuenta que el t-test, p-valores están en la primera fila de res
y el MMM p-valores están en la segunda fila.