9 votos

Prueba de permutación aleatoria para la selección de características

Estoy confundido sobre el análisis de permutación para la selección de características en un contexto de regresión logística.
¿Podría dar una explicación clara de la prueba de permutación aleatoria y cómo se aplica a la selección de características? Posiblemente con un algoritmo exacto y ejemplos.

Por último, ¿cómo se compara con otros métodos de contracción como Lasso o LAR?

10voto

user3595 Puntos 29

(No tengo mucho tiempo ahora, así que responderé brevemente y me extenderé más tarde)

Digamos que estamos considerando un problema de clasificación binaria y tenemos un conjunto de entrenamiento de $m$ muestras de la clase 1 y $n$ muestras de la clase 2. Una prueba de permutación para la selección de características examina cada característica individualmente. Un estadístico de prueba $\theta$ como la ganancia de información o la diferencia normalizada entre las medias, se calcula para la característica. A continuación, los datos de la característica se permutan aleatoriamente y se dividen en dos conjuntos, uno de tamaño $m$ y uno de tamaño $n$ . La estadística de prueba $\theta_p$ se calcula entonces en base a esta nueva partición $p$ . Dependiendo de la complejidad computacional del problema, esto se repite sobre todas las posibles particiones de la característica en dos conjuntos de orden $m$ et $n$ o un subconjunto aleatorio de ellos.

Ahora que hemos establecido una distribución sobre $\theta_p$ calculamos el valor p de que el estadístico de prueba observado $\theta$ surgió de una partición aleatoria de la característica. La hipótesis nula es que las muestras de cada clase proceden de la misma distribución subyacente (la característica es irrelevante).

Este proceso se repite sobre todas las características, y luego el subconjunto de características utilizadas para la clasificación puede seleccionarse de dos maneras:

  • El $N$ características con los valores p más bajos
  • Todas las características con un valor p $<\epsilon$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X