7 votos

Cómo es exactamente la prueba de permutación procedimiento llevado a cabo: iterando sobre permutaciones o el uso de combinaciones de un grupo?

He tratado de encontrar un artículo que explica el procedimiento de pruebas de permutación para el exhaustivo muestreo de todas las permutaciones (no el método de monte carlo) y no podía encontrar un recurso que era lo suficientemente específica como para que me ayude con la ambigüedad describen a continuación. Por ejemplo, el artículo de la Wikipedia (https://en.wikipedia.org/wiki/Resampling_(estadísticas)#Permutation_tests) dice

enter image description here

Por ejemplo, dado un conjunto de datos combinados (1, 2, 3), donde el grupo a tiene una longitud de 2 y en el grupo B tiene una longitud de 1 por simplicidad, es que no me queda claro si "todas las formas posibles para dividir" significa {(1, 2), (3)} y {(2, 1), (3), ...} o si cuentan "{(1, 2), (3)}" y "{(2, 1), (3)}"como la misma división.

Buscando en varios ejemplos de código, por ejemplo, Python, R, Julia, etc. ejemplos en https://rosettacode.org/wiki/Permutation_testveo que la prueba de permutación generalmente se implementa de la siguiente manera:


Dadas dos muestras a y B

  1. Registro de la estadística de prueba (por ejemplo, $|\bar{A} - \bar{B}|$)
  2. Combinar las muestras a y B en una muestra grande de AB
  3. para la combinación de longitud(a) de AB:
    3a) calcular las permutaciones de la estadística (por ejemplo, $|\bar{A'} - \bar{B'}|$, donde a' es la combinación de 3. y B' son todos los ejemplos de AB que no están en Un').
    3b) registro de permutación de estadística
  4. Calcular el p-valor como la proporción de la permutación de la estadística de 3a) fue más extremo que el estadístico de prueba de 1. dividido por el número de combinaciones muestreados

Sin embargo, no hemos de ser de muestreo de las permutaciones en lugar de combinaciones de longitud? Por ejemplo, como se indica a continuación (me puso de relieve la diferencia con el procedimiento anterior en negrita):


Dadas dos muestras a y B

  1. Registro de la estadística de prueba (por ejemplo, $|\bar{A} - \bar{B}|$)
  2. Combinar las muestras a y B en una muestra grande de AB
  3. para la permutación de longitud(AB) de AB: 3a) calcular las permutaciones de la estadística (por ejemplo, $|\bar{A'} - \bar{B'}|$, donde Un' son los primeros len(A) muestras en el permutada AB secuencia y B' son las muestras restantes en AB

  4. Calcular el p-valor como la proporción de la permutación de la estadística de 3a) fue más extremo que el estadístico de prueba de 1. dividido por el número de permutaciones muestreados


O, para proporcionar un sencillo ejemplo numérico, considerar los siguientes 2 muestras

a = [1, 3] b = [2]

con la diferencia observada: obs = |media(de) media(b)| = 2

El uso de las "combinaciones" procedimiento, que sería el muestreo de los siguientes:

(1, 2), (3) => diff 0
(1, 3), (2) => diff 2
(2, 3), (1) => diff 4

donde en 2 de los 3 casos, se observa una diferencia igual o más fuerte que la de los observados estadística (es decir, p=2/3)

Ahora, utilizando las permutaciones, obtendríamos el siguiente:

(1, 2), (3) => diff 0
(1, 3), (2) => diff 2
(2, 1), (3) => diff 0
(2, 3), (1) => diff 4
(3, 1), (2) => diff 2
(3, 2), (1) => diff 4

Aquí, se observa una diferencia que es igual o más extremo que el observado de la estadística en 4 de los 6 casos (p=4/6)

¿Alguien más por el procedimiento exacto y fiable de los recursos en la mano? Gracias!

9voto

Tilefish Poele Puntos 140

Si tomar o no las combinaciones o permutaciones en realidad no afectan a los resultados, como el número de permutaciones de $n_{A}$ a objetos específicos en $A$ $n_{B}$ a objetos específicos en $B$ es el mismo para todas las combinaciones de $x_{1} ... x_{n_{A}}$ $x_{n_{A+1}} ... x_{n_{A} + n_{B}}$ ya que el tamaño de cada conjunto no cambia.

Es decir, para cada y en cualquier combinación, usted recibirá $n_{A}! \times n_{B}!$ veces el número de permutaciones de combinaciones independientemente de los valores dentro de cada conjunto. Y como el valor del resultado (la diferencia entre el grupo de medios) no cambia entre las permutaciones de la misma combinación de la frecuencia de cada resultado específico se escalará igualmente al tomar la permutación. Así que a la hora de calcular los cuantiles prácticamente no hay diferencia en el uso de combinaciones o permutaciones. De hecho empíricamente demostrado que, para el caso de $n_{A} = 1$$n_{b} = 2$, la frecuencia de cada resultado, $D = 0,2,4$, es sólo a escala por $2$ cuando se toma permutaciones resultante en el cuantil de los valores de la misma.

Supongamos el escenario donde las muestras son independientes, y queremos probar si dos muestras provienen de la misma distribución (hipótesis nula), basado en la diferencia en la muestra de medios

Para ser técnico si desea probar esta hipótesis específica, creo que es más estrictamente "correcta" para tener el conjunto completo de permutaciones (no combinadas) de cada conjunto, como el supuesto de distribución bajo la nula de que el grupo de las etiquetas no importan, es esencialmente permitiendo que cada una de las $x_{i.}$ tomar cualquier valor en la presencia de todos los otros $x_{j \neq i.}$, que las combinaciones no permiten.

Pero, de nuevo, los resultados de los cuantiles de la distribución empírica son los mismos ya que la frecuencia de cada resultado es escalado por el mismo importe $n_{A}! \times n_{B}!$, por lo que prácticamente no importa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X