1 votos

Selección de características para random Forest utilizando rfcv en el paquete R

Estoy ejecutando la regresión randomForest. Mi número de observaciones es 70 y el de variables independientes es 122. Para la selección de variables para el modelo final, he combinado la función rfcv() y la función Importance(randomForest). Por ejemplo, si el modelo con seis variables tiene el menor error OOB basado en rfcv. Entonces el modelo final tendrá las seis variables más importantes basadas en la función Importance.

Me pregunto si mi planteamiento es adecuado o no.

1voto

Chalky Puntos 1

El uso de los valores cv de randomforest es un enfoque válido para la selección de características, si ha seleccionado ajustes razonables para su muestreo oob.

Sin embargo, con sólo 70 observaciones no vas a obtener grandes resultados. En primer lugar, es muy difícil generar suficientes "pliegues" para obtener un número de validación significativo y, al mismo tiempo, disponer de datos suficientes para construir el bosque.

Los bosques aleatorios funcionan mejor cuando hay mucho más de 70 filas de las que tomar muestras. No sé cuántos árboles estás utilizando (y a qué profundidad), pero te quedarás rápidamente sin "extracciones" únicas en cada punto de decisión y verás un rendimiento subóptimo.

El verdadero reto de su situación es cómo hacer la selección de variables sin muchas filas de entrada. Un enfoque tradicional para este tipo de situación sería una regresión lineal penalizada, como ridge o lasso. Éstos tienden a funcionar mejor para la selección de variables en casos con muy pocos datos de entrada.

Dicho todo esto, dada la escasa cantidad de datos con la que se trabaja, va a ser muy difícil conseguir un buen modelo aunque se utilicen las técnicas más sofisticadas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X