Bosque aleatorio es básicamente el remuestreo bootstrap y el entrenamiento de los árboles de decisión en las muestras, por lo que la respuesta a su pregunta debe abordar estos dos aspectos.
Remuestreo Bootstrap es no es una cura para las muestras pequeñas . Si sólo tiene veinticuatro observaciones en su conjunto de datos, entonces cada una de las muestras tomadas con reemplazo de estos datos consistiría en no más de los veinticuatro valores distintos. Barajar los casos y no extraer algunos de ellos no cambiaría mucho su capacidad de aprender algo nuevo sobre la distribución subyacente. Así que una muestra pequeña es un problema para bootstrap.
Árboles de decisión se entrenan dividiendo los datos condicionalmente en las variables predictoras, una variable cada vez, para encontrar las submuestras que tienen mayor poder discriminatorio. Si sólo tiene veinticuatro casos, digamos que si tiene suerte y todas las divisiones son de tamaño uniforme, entonces con dos divisiones acabará con cuatro grupos de seis casos, y con tres divisiones, con ocho grupos de tres. Si se calculan las medias condicionales de las muestras (para predecir los valores continuos en los árboles de regresión, o las probabilidades condicionales en los árboles de decisión), ¡se basaría la conclusión sólo en esos pocos casos! Así que las submuestras que utilizarías para tomar las decisiones serían incluso más pequeñas que tus datos originales.
Con muestras pequeñas suele ser conveniente utilizar métodos sencillos . Además, se puede recuperar la muestra pequeña utilizando priores informativos en el entorno bayesiano (si se tiene algún conocimiento razonable fuera de los datos sobre el problema), por lo que se podría considerar el uso de algún modelo bayesiano a medida.
1 votos
Normalmente, la única restricción de los bosques aleatorios es que el número de características debe ser bastante grande: el primer paso de la RF es elegir 1/3n o sqrt(n) características para construir un árbol (dependiendo de la tarea, regresión/clasificación). Por lo tanto, si tiene muchas características, utilice RF incluso en conjuntos de datos pequeños; no hay ningún algoritmo que funcione realmente bien en conjuntos de datos pequeños, por lo que no pierde nada.
2 votos
Estás en el rango bajo. La radiofrecuencia funcionará, pero probablemente no aprenderá cosas mucho más complejas que las que se pueden obtener mirando los datos en bruto. Ayuda, si sus datos son de muy bajo ruido. A partir de 40-50 muestras empieza a mejorar. 500 bien. 5000 impresionante.
0 votos
Para la regresión, la profundidad posible del árbol está limitada por minnode=5, por lo que sus muestras no se dividirían en promedio más de 2 veces [[ 24 ->(1) 12 ->(2) 6. ]] Incluyendo la limitación de mtry, el modelo tendría dificultades para capturar cualquier efecto de interacción o incluso un simple efecto no lineal. Usted podría jugar con minnode y mtry, pero sólo debería hacerlo si sus datos prácticamente no tienen ruido. La otra cara de la moneda sería el posible sobreajuste de las conclusiones. La estructura del modelo obtenida se parecería a una función escalonada más o menos suavizada.
0 votos
stackoverflow.com/questions/24752941/
0 votos
Para un conjunto de datos pequeño, utilice la técnica de validación cruzada. Para más información, stats.stackexchange.com/questions/19048/
0 votos
Me pregunto de dónde ha sacado el PIB mensual.