7 votos

Selección de características para la predicción de eventos de baja probabilidad

Actualmente estoy tratando de predecir la probabilidad de eventos de baja probabilidad (~ 1%). Tengo grande DB con vectores ~ 200.000 (~ 2000 además de ejemplos) con las características de ~ 200. Estoy tratando de encontrar las mejores características para mi problema. ¿Cuáles son el método recomendado? (en Python o R, pero no necesariamente)

¡Gracias!

7voto

John Richardson Puntos 1197

Mi primer consejo sería que, a menos que la identificación de los informativos de las características es un objetivo de los análisis, no se moleste con función de selección y sólo tiene que utilizar una de regularización, modelo, tal sancionado de regresión logística, regresión ridge o SVM, y dejar que la regularización de la manija de la sobre-ajuste. Se dice a menudo que la selección de la función de mejora de clasificador de rendimiento, pero no siempre es cierto.

De acuerdo con la clase de problema de desequilibrio, dar diferentes pesos a los patrones de cada clase en el cálculo de la pérdida de función utilizado para ajustar el modelo. Elija la relación de pesos por validación cruzada (para un clasificador probabilístico que pueda trabajar fuera de la asymptically pesos óptimos, pero que generalmente no le dan resultados óptimos en una muestra finita). Si usted está usando un clasificador que te puede dar diferentes pesos a cada clase, luego sub-muestra de la mayoría de la clase en su lugar, donde de nuevo la proporción de positivos y negativos de los patrones está determinado por validación cruzada (asegúrese de que la partición de pruebas en cada pliegue de la cruz-procedimiento de validación tiene la misma relación de clase frecuencias que esperar para ver en funcionamiento).

Por último, es a menudo el caso en la aplicación práctica, con una clase de desequilibrio que los falsos positivos y los falsos negativos no son de igual gravedad, por lo que incorporar esto en la construcción del clasificador.

3voto

Eran Medan Puntos 193

El problema de la estimación de probabilidades cae bajo la categoría de "regresión", ya que la probabilidad es de una media condicional. Los métodos clásicos para la selección de características (también conocido como "el subconjunto de selección" o "selección de modelo"), los métodos de regresión incluyen la mejor k, hacia adelante y hacia atrás - paso a paso, y adelante stagewise, descrita en el Capítulo 3 de los Elementos de Aprendizaje Estadístico. Sin embargo, estos métodos son generalmente costosas, y dado el número de características en el conjunto de datos, mi elección sería el uso de glmpath, que implementa L1-regularización de regresión utilizando una modificación de la increíblemente eficiente LARS algoritmo.

EDIT: Más detalles sobre la L1 de regularización. El LARS algoritmo produce todo el "Lazo" camino de $\lambda$ (la regularización constante), que van desde 0 a $\infty$. En $\lambda=0$, todas las funciones se utilizan; en $\lambda=\infty$, ninguna de las características que tienen distinto de cero de los coeficientes. En medio hay valores de $\lambda$ para los que en cualquier lugar de 1 a 199 funciones que se utilizan.

Utilizando los resultados de LARS uno puede seleccionar los valores de $\lambda$ con el mejor rendimiento (según los criterios). Luego, utilizando sólo las características con un valor distinto de cero los coeficientes para un determinado $\lambda$, entonces se puede encajar un unregularized modelo de regresión logística para la predicción final.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X