14 votos

Importancia de las variables en la regresión logística

Soy probablemente se trata de un problema que probablemente haya sido resuelto de un centenar de veces antes, pero no estoy seguro de dónde encontrar la respuesta.

Cuando se utiliza la regresión logística, dado que muchas de las funciones $x_1,...,x_n$ tratando de predecir un binario categórica valor de $y$, estoy interesado en la selección de un subconjunto de las características que predice $y$ bien.

Hay un procedimiento similar a la del lazo que se puede utilizar? (Sólo he visto el lazo se utiliza para la regresión lineal.)

Busca en los coeficientes del modelo ajustado indicativo de la importancia de las diferentes características?

Editar - Aclaraciones Después de Ver Algunas de las Respuestas:

  1. Cuando me refiero a la magnitud de la equipados coeficientes, me refiero a aquellos que se ajustan a los normalizado (media 0 y varianza 1) características. De lo contrario, como @probabilityislogic señaló, 1000x parece menos importante que la de x.

  2. No estoy interesado simplemente en búsqueda de los mejores k-subconjunto (como @Davide se ofrece), pero en lugar de considerar la importancia de características diferentes respecto a otros. Por ejemplo, una característica que podría ser "edad", y la otra característica de la "edad>30". Su incremental importancia podría ser poco, pero ambos pueden ser importantes.

Gracias.

10voto

Maximus Puntos 16

DWin la respuesta ofrece la respuesta pero poco entendimiento, por lo que pensé que podría ser útil para proporcionar alguna explicación.

Si usted tiene dos clases que son, básicamente, tratando de estimar $p=P(y_i=1|X=x_i)$. Esto es todo lo que necesita y modelo de regresión logística se supone que:

$log \frac{p}{1-p} = log \frac{P(y_i=1|X=x_i)}{P(y_i=1|X=X_i)}=\beta _0 + \beta _1 ^T x_i$

Lo que creo que te refieres por la importancia de la función de $j$ es cómo afecta a $p$ o en otras palabras ¿qué es $\frac{\partial p}{\partial x_{ij}}$.

Después de una pequeña transformación se puede ver que

$p=\frac{e^{\beta _0 + \beta _1 ^T x_i}}{1+e^{\beta _0 + \beta _1 ^T x_i}}$.

Una vez que calcular sus derivadas verás que

$\frac{\partial p}{\partial x_{ij}} = \beta_j e^{\beta_0 + \beta _1 ^T x_i}$

Claramente, esto depende del valor de todas las demás variables. Sin embargo se puede observar que el SIGNO del coeficiente puede ser interpretado de la forma que desee: si es negativa, entonces esta característica disminuye la probabilidad p.

Ahora en su procedimiento de estimación usted está tratando de estimar $\beta$s suponiendo que el modelo es correcto. Con la regularización de introducir algún sesgo en las estimaciones. Por una cresta y regresión de las variables independientes se puede obtener una solución de forma cerrada:

$\hat{\beta^r} = \frac{\hat{\beta}}{\hat{\beta} + \lambda}$.

Como puede ver, esta puede cambiar el signo de su coeficiente de manera incluso que la interpretación se rompen.

9voto

aron Puntos 174

La respuesta a tu última pregunta es un plano NO. La magnitud de los coeficientes no son de ninguna manera una medida de importancia. El lazo puede ser utilizado para la regresión logística. Usted necesita para estudiar la zona más asiduamente. Los métodos que usted necesita para estudiar son aquellos que implican "penalizado" métodos. Si usted está buscando para los métodos de detección que descubrir "la sombra" predictores, un término que puede ser definido en algún lugar, pero no es de uso general, entonces usted necesita para estar buscando métodos que inspeccionar las interacciones y no-lineal de la estructura dentro de la predictor espacio y el resultado de la vinculación con ese espacio. Hay un poco de discusión de estos temas y métodos de Frank Harrell del texto "modelos de Regresión de Estrategias".

El retroceso de la selección de la estrategia fallará para ofrecer resultados válidos (aunque no entregar los resultados). Si has mirado en un caso de 20 azar predictores de 100 eventos, usted encontrará probablemente 2 o 3 que serán seleccionados con un retroceso del proceso de selección. La prevalencia de atrás de selección en el mundo real no refleja cuidado de estadística de pensamiento, sino que, más bien, su fácil disponibilidad en SAS y SPSS y la falta de sofisticación de los productos de la base de usuarios. El R de la base de usuarios tiene más dificultades para acceder a métodos y a los usuarios que las solicitudes post en las listas de correo y por LO que generalmente se ha advertido de los problemas que se plantean hacia atrás (o hacia adelante) métodos de selección.

-4voto

Foredecker Puntos 5784

Inglés no es mi idioma nativo, por lo que puedo no han comprendido cuál es su problema, pero si usted necesita encontrar el mejor modelo puede intentar usar un hacia atrás procedimiento (y eventualmente agregar interacciones), a partir de un modelo con todas las covariables. Luego puedes mirar los valores de residuals_vs_predicted y los gráficos qq-plot para comprobar si el modelo está bien describiendo el fenómeno

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X