Tengo una matriz de datos con un tamaño de 24 por 369, que consta de 4 clases. Quiero evaluar la importancia de las variables mediante una prueba de permutación. Sé que hay muchos métodos para encontrar variables informativas de acuerdo con la pregunta en cuestión, pero aquí me gustaría centrarme en la correlación entre las variables x
y la clase y
En cuanto a los problemas de clases múltiples, también es una forma eficaz de evaluar la importancia de las variables. Se utilizan dos formas para la prueba de permutación:
- Barajar al azar
y
y calcular la correlación entre losy
yx
. Repita este proceso 10.000 veces y calcule la fracción de correlaciones mayores que la correlación entre las normalesy
yx
(denotado como correlación normal ) como la estimación de p valor. A continuación, utilice el procedimiento de corrección de Benjamini y Hochberg para obtener las variables con p valores inferiores al umbral definido por el FDR del 5%, a modo de comparación múltiple. - Para las 369 variables, la mayor correlación en las correlaciones calculadas a partir de las
y
y cada variablex
como en camino 1 se recoge (se denota como correlación nula ). Así, para 369 variables tengo 369 correlaciones nulas ordenados de forma ascendente. A continuación, encontrar la posición de cada correlación normal en correlaciones nulas . Seleccione las variables con correlación normal en el 5% superior como control del FDR 5%.
Puedo obtener varias variables de camino 1 pero ninguno de camino 2 . ¿Estoy haciendo algo mal, especialmente en camino 2 ya que parece ser también una forma popular de comparación múltiple? Otra pregunta es, ¿cuál es la diferencia entre estas dos formas?