He tratado de encontrar un artículo que explica el procedimiento de pruebas de permutación para el exhaustivo muestreo de todas las permutaciones (no el método de monte carlo) y no podía encontrar un recurso que era lo suficientemente específica como para que me ayude con la ambigüedad describen a continuación. Por ejemplo, el artículo de la Wikipedia (https://en.wikipedia.org/wiki/Resampling_(estadísticas)#Permutation_tests) dice
Por ejemplo, dado un conjunto de datos combinados (1, 2, 3), donde el grupo a tiene una longitud de 2 y en el grupo B tiene una longitud de 1 por simplicidad, es que no me queda claro si "todas las formas posibles para dividir" significa {(1, 2), (3)} y {(2, 1), (3), ...} o si cuentan "{(1, 2), (3)}" y "{(2, 1), (3)}"como la misma división.
Buscando en varios ejemplos de código, por ejemplo, Python, R, Julia, etc. ejemplos en https://rosettacode.org/wiki/Permutation_testveo que la prueba de permutación generalmente se implementa de la siguiente manera:
Dadas dos muestras a y B
- Registro de la estadística de prueba (por ejemplo, $|\bar{A} - \bar{B}|$)
- Combinar las muestras a y B en una muestra grande de AB
- para la combinación de longitud(a) de AB:
3a) calcular las permutaciones de la estadística (por ejemplo, $|\bar{A'} - \bar{B'}|$, donde a' es la combinación de 3. y B' son todos los ejemplos de AB que no están en Un').
3b) registro de permutación de estadística - Calcular el p-valor como la proporción de la permutación de la estadística de 3a) fue más extremo que el estadístico de prueba de 1. dividido por el número de combinaciones muestreados
Sin embargo, no hemos de ser de muestreo de las permutaciones en lugar de combinaciones de longitud? Por ejemplo, como se indica a continuación (me puso de relieve la diferencia con el procedimiento anterior en negrita):
Dadas dos muestras a y B
- Registro de la estadística de prueba (por ejemplo, $|\bar{A} - \bar{B}|$)
- Combinar las muestras a y B en una muestra grande de AB
para la permutación de longitud(AB) de AB: 3a) calcular las permutaciones de la estadística (por ejemplo, $|\bar{A'} - \bar{B'}|$, donde Un' son los primeros len(A) muestras en el permutada AB secuencia y B' son las muestras restantes en AB
Calcular el p-valor como la proporción de la permutación de la estadística de 3a) fue más extremo que el estadístico de prueba de 1. dividido por el número de permutaciones muestreados
O, para proporcionar un sencillo ejemplo numérico, considerar los siguientes 2 muestras
a = [1, 3] b = [2]
con la diferencia observada: obs = |media(de) media(b)| = 2
El uso de las "combinaciones" procedimiento, que sería el muestreo de los siguientes:
(1, 2), (3) => diff 0
(1, 3), (2) => diff 2
(2, 3), (1) => diff 4
donde en 2 de los 3 casos, se observa una diferencia igual o más fuerte que la de los observados estadística (es decir, p=2/3)
Ahora, utilizando las permutaciones, obtendríamos el siguiente:
(1, 2), (3) => diff 0
(1, 3), (2) => diff 2
(2, 1), (3) => diff 0
(2, 3), (1) => diff 4
(3, 1), (2) => diff 2
(3, 2), (1) => diff 4
Aquí, se observa una diferencia que es igual o más extremo que el observado de la estadística en 4 de los 6 casos (p=4/6)
¿Alguien más por el procedimiento exacto y fiable de los recursos en la mano? Gracias!