Estoy utilizando el paquete randomForest en R para desarrollar un modelo de bosque aleatorio para intentar explicar un resultado continuo en un conjunto de datos "amplio" con más predictores que muestras.
En concreto, estoy ajustando un modelo de RF que permite al procedimiento seleccionar entre un conjunto de ~75 variables predictoras que considero importantes.
Estoy probando lo bien que ese modelo predice el resultado real para un conjunto de pruebas reservado, utilizando el enfoque publicado aquí anteriormente a saber,
... o en R:
1 - sum((y-predicted)^2)/sum((y-mean(y))^2)
Pero ahora tengo unas 25 variables predictoras adicionales que puedo añadir. Al utilizar el conjunto de ~100 predictores, el R² es mayor. Quiero probar esto estadísticamente, en otras palabras, cuando se utiliza el conjunto de ~100 predictores, ¿el modelo prueba significativamente mejor en los datos de prueba que el modelo ajustado utilizando ~75 predictores. Es decir, ¿es el R² de la prueba del ajuste del modelo de RF en el conjunto de datos completo significativamente mayor que el R² de la prueba del modelo de RF en el conjunto de datos reducido?
Es importante que lo compruebe, porque se trata de datos piloto, y conseguir esos 25 predictores adicionales fue caro, y necesito saber si debo pagar para medir esos predictores en un estudio de seguimiento más amplio.
Estoy tratando de pensar en algún tipo de enfoque de remuestreo/permutación pero no se me ocurre nada.