Me he convertido en algo así como un nihilista cuando se trata de la variable importancia de los rankings (en el contexto de modelos multivariantes de todo tipo).
A menudo en el curso de mi trabajo, se me pide, ya sea para asistir a otro equipo de producir una importancia variable de clasificación, o de producir una variable de importancia ranking de mi propio trabajo. En respuesta a estas solicitudes, pido a las siguientes preguntas
¿Qué te gustaría que esta variable importancia de la clasificación de la? ¿Qué espera aprender de ella? ¿Qué tipo de decisiones le gustaría hacer uso de ella?
Las respuestas que reciben casi siempre caen en una de dos categorías
- Me gustaría saber la importancia de las diferentes variables en mi modelo en la predicción de la respuesta.
- Me gustaría usarlo para la selección de características, mediante la eliminación de baja importancia de las variables.
La primera respuesta es tautológica (me gustaría una variable de importancia de la clasificación, porque me gustaría una importancia variable de clasificación). Debo suponer que estas clasificaciones llenar una necesidad psicológica a la hora de consumir la salida de un modelo multivariado. Tengo un tiempo difícil la comprensión de este, como la clasificación de las variables "importancia" de forma individual parece implícitamente rechazan la naturaleza multidimensional de la modelo en cuestión.
La segunda respuesta esencialmente se reduce a una versión informal de atrás de selección, la estadística pecados de los cuales están bien documentados en otras partes de CrossValidated.
Yo también lucha con el mal definida de la naturaleza de la importancia de las clasificaciones. Parece que hay poco acuerdo sobre lo que el concepto subyacente en el ranking se debe medir, dándoles una muy ad hoc sabor. Hay muchas maneras de asignar una puntuación de importancia o rango, y por lo general sufren de desventajas y advertencias:
- Pueden ser altamente algoritmo dependiente, como en la importancia de los rankings en los bosques aleatorios y gbm.
- Se puede tener muy alta varianza, cambiando drásticamente con las perturbaciones en los datos subyacentes.
- Ellos pueden sufrir mucho de correlación en la entrada de los predictores.
Así que, con todo lo que dijo, mi pregunta es, ¿cuáles son algunas estadísticamente válida de los usos de la variable importancia de los rankings, o, lo que es un argumento convincente (ya sea para un estadístico o un laico) de la inutilidad de tal deseo? Estoy interesado en general los argumentos teóricos y estudios de caso, lo que sería más efectiva en lograr el punto.