La primera de ellas puede ser "interpretado" de la siguiente manera: si un indicador es importante en el modelo actual, a continuación, asignar otros valores para que el predictor de manera aleatoria, pero 'realista' (es decir: permuting este predictor de valores sobre el conjunto de datos), debe tener una influencia negativa en la predicción, es decir: utilizando el mismo modelo para predecir, a partir de datos que es el mismo a excepción de la variable, debe dar peores predicciones.
Así, se toma una predicción de medida (MSE) con el conjunto de datos original y, a continuación, con el 'permutada' conjunto de datos, y se compara con ellos de alguna manera. De una manera, sobre todo porque se espera que la original MSE a ser siempre menor, la diferencia puede ser tomado. Finalmente, para la fabricación de los valores comparables sobre las variables, estas son a escala.
Para el segundo: en cada división, se puede calcular cuánto esta división se reduce nodo de la impureza (para árboles de regresión, de hecho, la diferencia entre la RSS antes y después de la división). Esto se resume más de todas las divisiones de esa variable, sobre todos los árboles.
Nota: una buena lectura es Elementos de Aprendizaje Estadístico por Hastie, Tibshirani y Friedman...