19 votos

La comprensión de que las características más importantes de la regresión logística

He construido una regresión logística clasificador que es muy exacta en mis datos. Ahora quiero entender mejor por qué funciona tan bien. Específicamente, me gustaría rango de características que están haciendo la mayor contribución (que son las características más importantes) y, a ser posible, cuantificar la cantidad de cada función es contribuir a la precisión del modelo general (o algo en este sentido). ¿Cómo puedo hacer esto?

Mi primer pensamiento fue para clasificar en función de su coeficiente, pero sospecho que esto no puede ser correcto. Si tengo dos características que son igualmente útiles, pero la propagación de la primera es diez veces más grande que el segundo, entonces yo esperaría que el primero en recibir a un menor coeficiente de la segunda. Hay una más razonable a la hora de evaluar la característica de importancia?

Tenga en cuenta que no estoy tratando de entender cómo mucho un pequeño cambio en la característica afecta la probabilidad del resultado. Más bien, estoy tratando de comprender lo valioso de cada característica, en términos de hacer la clasificación exacta. También, mi objetivo no es tanto para realizar la selección de características o la construcción de un modelo con menos funciones, sino a tratar de dar algunas "explainability" para los eruditos del modelo, por lo que el clasificador no es sólo un opacas de caja negra.

15voto

dan90266 Puntos 609

La primera cosa a tener en cuenta es que no va a utilizar la regresión logística como un clasificador. El hecho de que $Y$ es binario tiene absolutamente nada que ver con el uso de este método de probabilidad máxima a la realidad clasificar las observaciones. Una vez pasado eso, concentrarse en el estándar de oro de la información de la medida que se trata de un producto de máxima verosimilitud: el cociente de probabilidad $\chi^2$ estadística. Puede producir un gráfico que muestra la contribución parcial de cada predictor en términos de su parcial $\chi^2$ estadística. Estas estadísticas tienen la máxima información/energía. Puede utilizar los archivos de inicio para mostrar lo difícil que es elegir "ganadores" y "perdedores" por la obtención de intervalos de confianza y el valor predictivo de la información proporcionada por cada predictor una vez que el resto de los predictores se representaron. Un ejemplo se encuentra en la Sección 5.4 de mis notas del curso - haga clic en los Folletos, a continuación, Folletos de nuevo.

Si usted tiene una alta correlación de las características que usted puede hacer un "trozo" de prueba a combinar su influencia. Un gráfico que hace esto se da en la Figura 15.11 donde size representa la contribución combinada de 4 distintos predictores.

6voto

DJohnson Puntos 1347

La respuesta corta es que es que no hay una sola manera "correcta" para responder a esta pregunta.

Para el mejor análisis de las cuestiones que ver Ulrike Groemping los papeles, por ejemplo, los Estimadores de Importancia Relativa en la Regresión Lineal Basado en la Descomposición de la Varianza. Las opciones que se analiza el rango de simple heurística para sofisticada, la CPU, multivariante soluciones.

https://prof.beuth-hochschule.de/fileadmin/user/groemping/downloads/amstat07mayp139.pdf

Groemping propone su propio enfoque en un paquete de R llamado RELAIMPO que también vale la pena leer.

https://cran.r-project.org/web/packages/relaimpo/relaimpo.pdf

Una rápida y sucia heurística que he utilizado es la suma de la chi-cuadrados (valores de F, t-statistics) asociados con cada uno de los parámetros, a continuación, repercentage los valores individuales con esa suma. El resultado sería una métrica de rankable importancia relativa.

Dicho esto, nunca he sido un fan de "estandarizados coeficientes beta" a pesar de que son frecuentemente recomendados por la profesión y ampliamente utilizado. Aquí está el problema con ellos: la normalización es univariante y externos para la solución del modelo. En otras palabras, este enfoque no refleja la naturaleza condicional de los resultados del modelo.

3voto

Jin Kim Puntos 258

Una robusta manera de hacer esto sería intentar el ajuste del modelo N veces, donde N es el número de características. Cada vez el uso de N-1 de las características y salir de una función. A continuación, puede utilizar su favorito de la validación de métricas para medir la cantidad de la inclusión o exclusión de cada característica afecta el rendimiento del modelo. Dependiendo del número de características que tiene este puede ser computacionalmente costoso.

2voto

JoanComasFdz Puntos 131

Estás en lo correcto en su observación de que, simplemente, mirar el tamaño de la estimación del coeficiente de $|\hat{\beta_j}|$ no es muy significativa por la razón mencionada. Pero un simple ajuste es multiplicar el coeficiente de estimación de la desviación estándar estimada de la predictor $|\hat{\beta_j}| \hat{\sigma}_j$, y utilizar esto como una medida de importancia. Esto a veces se llama un coeficiente beta estandarizado y en la regresión logística representa el cambio en la estimación de las probabilidades de registro de éxito causado por un cambio de una desviación típica en $x_j$. Un problema con esto es que se rompe cuando usted no está tratando con numérico predictores.

Respecto a tu último punto, por supuesto, es posible que una variable puede contribuir mucho a la estimación de las probabilidades de registro mientras que en realidad no afectan a la "verdadera" las probabilidades de registro mucho, pero no creo que esto debe ser demasiado preocupante si tenemos ninguna confianza en el procedimiento en el que se producen las estimaciones.

1voto

Dassen Puntos 1

Yo me tire en la que el Azar de los bosques es también una buena técnica aquí. Usted puede examinar en la parte superior se divide por el bosque para obtener la intuición en la que cuenta con más contribuyen a la predicción.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X