(No tengo mucho tiempo ahora, así que responderé brevemente y me extenderé más tarde)
Digamos que estamos considerando un problema de clasificación binaria y tenemos un conjunto de entrenamiento de $m$ muestras de la clase 1 y $n$ muestras de la clase 2. Una prueba de permutación para la selección de características examina cada característica individualmente. Un estadístico de prueba $\theta$ como la ganancia de información o la diferencia normalizada entre las medias, se calcula para la característica. A continuación, los datos de la característica se permutan aleatoriamente y se dividen en dos conjuntos, uno de tamaño $m$ y uno de tamaño $n$ . La estadística de prueba $\theta_p$ se calcula entonces en base a esta nueva partición $p$ . Dependiendo de la complejidad computacional del problema, esto se repite sobre todas las posibles particiones de la característica en dos conjuntos de orden $m$ et $n$ o un subconjunto aleatorio de ellos.
Ahora que hemos establecido una distribución sobre $\theta_p$ calculamos el valor p de que el estadístico de prueba observado $\theta$ surgió de una partición aleatoria de la característica. La hipótesis nula es que las muestras de cada clase proceden de la misma distribución subyacente (la característica es irrelevante).
Este proceso se repite sobre todas las características, y luego el subconjunto de características utilizadas para la clasificación puede seleccionarse de dos maneras:
- El $N$ características con los valores p más bajos
- Todas las características con un valor p $<\epsilon$