30 votos

Variable procedimiento de selección para la clasificación binaria

¿Cuáles son las variable/selección de características que usted prefiere para la clasificación binaria cuando hay muchas más variables/característica de observaciones en el aprendizaje? El objetivo aquí es para hablar de lo que es la característica del procedimiento de selección que reduce el mejor el error de clasificación.

Podemos arreglar las notaciones de la coherencia: para $i \in \{0, 1\}$, deje que $\{x_1^i,\dots, x_{n_i}^i\}$ ser el aprendizaje de un conjunto de observaciones del grupo i$$. Por lo que $n_0 + n_1 = $ n es el tamaño del aprendizaje conjunto. Ponemos $p$ a ser el número de características (es decir, la dimensión del espacio de características). Deje que $x[i]$ denotar el $i$-ésima coordenada de $x \in \mathbb{R}^p$.

Por favor, dar las referencias completas si no puede dar los detalles.

EDICIÓN (actualizada continuamente): los Procedimientos propuestos en las respuestas a continuación

Como este es el wiki de la comunidad puede haber más discusión y actualización de

Tengo una observación: en cierto sentido, todos dan un procedimiento que permitan el ordenamiento de las variables, pero no de selección de variables (que son bastante evasivo sobre cómo seleccionar el número de la cuenta, supongo que todo el uso de la validación cruzada?) Se puede mejorar las respuestas en esta dirección? (ya que este es el wiki de la comunidad no necesita ser la respuesta escritora para agregar información acerca de cómo seleccionar el número de variables? He abierto una pregunta en esta dirección aquí validación Cruzada en muy alta dimensión (para seleccionar el número de variables utilizadas en muchas dimensiones de clasificación))

20voto

Grant Puntos 5366

Una muy popular enfoque es penalizado de regresión logística, en el que se maximiza la suma de la log-verosimilitud y una penalización plazo que consiste en la L1-norma ("lazo"), norma L2 ("cadena"), una combinación de los dos ("elástica"), o una pena asociada a los grupos de variables ("grupo de lazo"). Este enfoque tiene varias ventajas:

  1. También tiene un gran teórico de propiedades, como por ejemplo, ver este papel por Candes & Plan y cerrar conexiones a la compresión de detección;
  2. Se ha accesible exposiciones, por ejemplo, en los Elementos de Aprendizaje Estadístico de Friedman-Hastie-Tibshirani (disponible en línea);
  3. Disponibles de software para el ajuste de los modelos. R tiene la glmnet paquete que es muy rápido y funciona bien con bastante grandes conjuntos de datos. Python tiene scikit-learn, que incluye L1 - L2-penalizado de regresión logística;
  4. Funciona muy bien en la práctica, como se muestra en muchos de los documentos de solicitud de reconocimiento de imágenes, procesamiento de señales, la biometría y las finanzas.

7voto

ESRogs Puntos 1381

Metrópolis de escaneo / MCMC

  • Seleccione algunas de las características de forma aleatoria para un inicio, tren clasificador solo en ellos y obtener el error.
  • Hacer algunos el cambio aleatorio a este conjunto de trabajo -- quitar una característica, agregar otro al azar o sustituir algunos de los cuentan con un no ser en la actualidad usa.
  • Tren de nuevo clasificador y obtener su error; almacenar en dE la diferencia el error en el nuevo conjunto menos el error en el conjunto anterior.
  • Con probabilidad min(1;exp(-beta*dE)) aceptar este cambio, de lo contrario lo rechazan y pruebe con otro cambio aleatorio.
  • Repita esto por un largo tiempo y finalmente devolver el conjunto de trabajo que a nivel mundial ha alcanzado el más mínimo error.

Usted puede ampliar con algunos de los más sabios de control de beta parámetro. Manera más sencilla es utilizar el recocido simulado cuando aumente beta (inferior a la temperatura en la física analogía) sobre el tiempo para reducir las fluctuaciones de la unidad el algoritmo hacia el mínimo. Más difícil es el uso de réplicas de intercambio.

5voto

John Richardson Puntos 1197

Si usted está interesado sólo en la generalización de rendimiento, usted es probablemente mejor no realizar la selección de la función y el uso de regularización en su lugar (por ejemplo, regresión ridge). Ha habido varios retos en el aprendizaje de la máquina de la comunidad en la selección de características, y los métodos que se basan en la regularización, en lugar de la selección de características en general realizar al menos igual de bien, si no mejor.

4voto

Scott Cowan Puntos 156

Codicioso adelante a la selección.

Los pasos de este método son:

  • Asegúrese de que tiene un tren y el conjunto de validación
  • Repita el siguiente
    • Entrenar un clasificador individual de cada característica por separado que no está seleccionada, sin embargo, y con todas las características seleccionadas previamente
    • Si el resultado mejora, agregue el mejor desempeño de función, de lo contrario dejar de procedimiento

2voto

ESRogs Puntos 1381

La eliminación hacia atrás.

Comience con el conjunto completo, a continuación, de forma iterativa entrenar el clasificador en el resto de las funciones y quitar la entidad con la menor importancia, se detiene cuando el clasificador de error aumenta rápidamente/se convierte en inaceptable alta.

Importancia puede ser incluso obtenidos por la eliminación iterativa de cada característica y verificar el error de aumentar o adaptadas a partir de la clasificación si se produce (como en el caso de Random Forest).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X