33 votos

Lo que son de importancia variable clasificaciones útiles?

Me he convertido en algo así como un nihilista cuando se trata de la variable importancia de los rankings (en el contexto de modelos multivariantes de todo tipo).

A menudo en el curso de mi trabajo, se me pide, ya sea para asistir a otro equipo de producir una importancia variable de clasificación, o de producir una variable de importancia ranking de mi propio trabajo. En respuesta a estas solicitudes, pido a las siguientes preguntas

¿Qué te gustaría que esta variable importancia de la clasificación de la? ¿Qué espera aprender de ella? ¿Qué tipo de decisiones le gustaría hacer uso de ella?

Las respuestas que reciben casi siempre caen en una de dos categorías

  • Me gustaría saber la importancia de las diferentes variables en mi modelo en la predicción de la respuesta.
  • Me gustaría usarlo para la selección de características, mediante la eliminación de baja importancia de las variables.

La primera respuesta es tautológica (me gustaría una variable de importancia de la clasificación, porque me gustaría una importancia variable de clasificación). Debo suponer que estas clasificaciones llenar una necesidad psicológica a la hora de consumir la salida de un modelo multivariado. Tengo un tiempo difícil la comprensión de este, como la clasificación de las variables "importancia" de forma individual parece implícitamente rechazan la naturaleza multidimensional de la modelo en cuestión.

La segunda respuesta esencialmente se reduce a una versión informal de atrás de selección, la estadística pecados de los cuales están bien documentados en otras partes de CrossValidated.

Yo también lucha con el mal definida de la naturaleza de la importancia de las clasificaciones. Parece que hay poco acuerdo sobre lo que el concepto subyacente en el ranking se debe medir, dándoles una muy ad hoc sabor. Hay muchas maneras de asignar una puntuación de importancia o rango, y por lo general sufren de desventajas y advertencias:

  • Pueden ser altamente algoritmo dependiente, como en la importancia de los rankings en los bosques aleatorios y gbm.
  • Se puede tener muy alta varianza, cambiando drásticamente con las perturbaciones en los datos subyacentes.
  • Ellos pueden sufrir mucho de correlación en la entrada de los predictores.

Así que, con todo lo que dijo, mi pregunta es, ¿cuáles son algunas estadísticamente válida de los usos de la variable importancia de los rankings, o, lo que es un argumento convincente (ya sea para un estadístico o un laico) de la inutilidad de tal deseo? Estoy interesado en general los argumentos teóricos y estudios de caso, lo que sería más efectiva en lograr el punto.

13voto

Synderesis Puntos 113

Esto es completamente anecdótica, pero me he encontrado de importancia variable útil en la identificación de errores o debilidades en Gbm.

Variable de importancia le da usted una especie de enorme transversal descripción general del modelo que iba a ser difícil conseguir de otra manera. Las Variables más alto en la lista están viendo más actividad (sean o no más "importante" es otra cuestión). A menudo un poco de comportarse predictor (por ejemplo algo de futuro, o de alta cardinalidad factor) se dispara a la parte superior.

Si hay un gran desacuerdo entre la intuición de importancia variable y GBM de importancia variable, por lo general hay algunos valiosos conocimientos para ser adquirida o de un error encontrado.

Yo añadiría una tercera respuesta al "¿por qué me pides esto?" pregunta, que es "porque quiero entender lo que es causal de mi respuesta". Eep.

11voto

EdM Puntos 5716

He argumentado que la variable de importancia es un concepto escurridizo, ya que esta cuestión plantea. El tautológica primer tipo de respuesta que se obtenga a su pregunta y las esperanzas poco realistas de aquellos que iban a interpretar la variable importancia de los resultados en términos de causalidad, como se nota por @DexGroves, necesitan un poco de elaboración.

En la justicia para los que usan atrás de selección, sin embargo, incluso Frank Harrell permite como parte de una estrategia de modelado. A partir de la página 97 de sus modelos de Regresión de Estrategias, 2ª edición (una declaración similar se encuentra en la página 131 de las notas del curso):

  1. Se limitan paso atrás-abajo de selección de variables si parsimonia es más importante que la exactitud.

Esto limita el potencial de uso de versiones anteriores de selección, sin embargo, es el paso 13, el último paso antes de la final del modelo (paso 14). Viene bien después de la crucial primeros pasos:

  1. Montar como gran precisión de los datos pertinentes como sea posible, con amplia distribución de los valores predictores...
  2. Buena formulación de las hipótesis que conducen a la especificación de los candidatos relevantes predictores y las posibles interacciones...

En mi experiencia, las personas a menudo quieren omitir el paso 2, y dejar que el proceso automático de reemplazar inteligente aplicación de conocimiento de la materia. Esto puede llevar a algunos de los énfasis que se pone en la variable de importancia.

El modelo completo de Harrell del paso 14 es seguido por más de 5 pasos de validación y ajuste, con un último paso:

  1. Desarrollar simplificaciones al modelo completo por lo que lo aproxima a cualquiera que desee grados de precisión.

Como otras respuestas han señalado, hay cuestiones de la accionabilidad, el costo y la simplicidad que entrar en la aplicación práctica de los resultados de los modelos. Por ejemplo, si desarrollan un nuevo biomarcador de cáncer que mejora el pronóstico, pero cuesta $100.000 por prueba, podría ser difícil convencer a las aseguradoras o el gobierno para pagar por la prueba a menos que es espectacularmente útil. Así que no es razonable que alguien quiere centrarse en variables que son "más importante" o a la simplificación de un modelo preciso en que es algo menos precisa, pero es más fácil o menos costoso de implementar.

Pero esta selección de variables y el modelo de simplificación debe ser para un propósito específico, y creo que es donde está la dificultad. El problema es similar a la evaluación de los esquemas de clasificación únicamente sobre la base de porcentaje de casos correctamente clasificados. Así como los diferentes errores de clasificación pueden tener diferentes costos, diferente modelo de simplificación de los esquemas pueden tener diferentes costos que la balanza en contra de sus beneficios esperados.

Así que creo que el tema se concentrará en la medida que el analista es la capacidad de estimar y de ilustrar estos costos y beneficios de forma fiable con la modelización estadística de los procedimientos, en lugar de preocuparse demasiado acerca de un concepto abstracto de la estadísticamente la validez de por sí. Por ejemplo, las páginas 157-8 de Harrell la clase de notas vinculadas de arriba tiene un ejemplo de uso de los archivos de inicio para mostrar los caprichos de la clasificación de los predictores en menos plazas; resultados similares pueden ser encontrados para conjuntos de variables seleccionadas por el LAZO.

Si ese tipo de variabilidad de la variable de selección no se interponga en el camino de una determinada aplicación práctica del modelo que ACEPTAR. El trabajo es la estimación de cuánto y qué tipo de problemas que la simplificación, le va a dar.

7voto

DJohnson Puntos 1347

Variable de importancia de los rankings tienen un papel definido en el que se aplica mundo de los negocios siempre hay una necesidad de dar prioridad a la potencialmente un gran número de entradas a un proceso, cualquier proceso. Esta información proporciona la dirección en términos de una estrategia enfocada en atacar un problema, trabajando desde la más a la menos importante, por ejemplo, el proceso de reducción de costes, dado que las variables son leveragable y no fijos o estructurales factores inmunes a la manipulación. Al final del día, esto debe resultar en Un test a/B de algún tipo.

A su punto sin embargo, Matt, y como con cualquier ordinal de los rankings de los menores matices o diferencias entre las variables pueden ser ambiguos o se oculta, vitiating su utilidad.

4voto

Metallica Puntos 484

Estoy completamente de acuerdo con usted en el punto de vista teórico. Pero en el punto de vista práctico, de importancia variable es muy útil.

Veamos un ejemplo en el cual una compañía de seguros quiere reducir el número de preguntas en un cuestionario de la cuantificación del riesgo de sus clientes. El más complicado es el cuestionario, es menos probable que los clientes compren sus productos. Por esa razón, quieren reducir la menos preguntas útiles a la hora de mantener el nivel de cuantificación de riesgos. La solución es a menudo el uso de la variable de importancia para determinar qué preguntas se elimina de la aplicación del cuestionario (y tener "más o menos" la misma predicción sobre el perfil de riesgo de la perspectiva).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X