2 votos

Forma correcta de realizar la prueba de permutación para la correlación

Tengo una matriz de datos con un tamaño de 24 por 369, que consta de 4 clases. Quiero evaluar la importancia de las variables mediante una prueba de permutación. Sé que hay muchos métodos para encontrar variables informativas de acuerdo con la pregunta en cuestión, pero aquí me gustaría centrarme en la correlación entre las variables x y la clase y En cuanto a los problemas de clases múltiples, también es una forma eficaz de evaluar la importancia de las variables. Se utilizan dos formas para la prueba de permutación:

  1. Barajar al azar y y calcular la correlación entre los y y x . Repita este proceso 10.000 veces y calcule la fracción de correlaciones mayores que la correlación entre las normales y y x (denotado como correlación normal ) como la estimación de p valor. A continuación, utilice el procedimiento de corrección de Benjamini y Hochberg para obtener las variables con p valores inferiores al umbral definido por el FDR del 5%, a modo de comparación múltiple.
  2. Para las 369 variables, la mayor correlación en las correlaciones calculadas a partir de las y y cada variable x como en camino 1 se recoge (se denota como correlación nula ). Así, para 369 variables tengo 369 correlaciones nulas ordenados de forma ascendente. A continuación, encontrar la posición de cada correlación normal en correlaciones nulas . Seleccione las variables con correlación normal en el 5% superior como control del FDR 5%.

Puedo obtener varias variables de camino 1 pero ninguno de camino 2 . ¿Estoy haciendo algo mal, especialmente en camino 2 ya que parece ser también una forma popular de comparación múltiple? Otra pregunta es, ¿cuál es la diferencia entre estas dos formas?

2voto

Ben Hamill Puntos 655

La diferencia está en la medida de multiplicidad que se controla. El procedimiento de Benjamini-Hochberg controla el FDR, mientras que el segundo que usted está utilizando -el procedimiento de permutación max-T- controla el FWER. Así que, por un lado, el segundo procedimiento tiene en cuenta la estructura de las correlaciones entre los estadísticos de la prueba, lo que lo hace más potente (capaz de detectar verdaderas desviaciones de la nula); por otro, impone un control más estricto de la multiplicidad, lo que lo hace menos potente. Parece que en su caso la segunda fuerza es más fuerte.

Por cierto, ¿utilizas las correlaciones de Pearson? Ya que $y$ es una variable discreta de 4 valores, sugeriría sustituir las correlaciones por, por ejemplo, los estadísticos de la prueba de Fisher ANOVA de una vía: $$ F = \frac{\frac1{4-1} \sum\limits_{k=1}^4 n_k \left(\bar{x}_k - \bar{x}\right)^2}{\frac1{N-4}\sum\limits_{k=1}^4\sum\limits_{i=1}^{n_k} \left(x_{ki} - \bar{x}_k\right)^2 },$$ donde $\bar{x}_k$ son promedios $x$ valores para el $k$ El nivel de $y$ , $\bar{x}$ es la media global, y $n_k$ es el número de casos con $y=k$ . Esta estadística mide la diferencia entre los valores medios de $x$ para diferentes niveles de $y$ sin imponer una relación de orden (posiblemente inexistente) entre diferentes etiquetas de clase.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X