22 votos

¿Random Forest es adecuado para conjuntos de datos muy pequeños?

Tengo un conjunto de datos que comprende 24 filas de datos mensuales. Las características son pib, llegadas de aeropuertos, mes, y algunos otros. La variable dependiente es el número de visitantes a un destino turístico popular. ¿Random Forest sería adecuado para un problema de este tipo?

Los datos no son públicos, por lo que no puedo publicar un ejemplo.

1 votos

Normalmente, la única restricción de los bosques aleatorios es que el número de características debe ser bastante grande: el primer paso de la RF es elegir 1/3n o sqrt(n) características para construir un árbol (dependiendo de la tarea, regresión/clasificación). Por lo tanto, si tiene muchas características, utilice RF incluso en conjuntos de datos pequeños; no hay ningún algoritmo que funcione realmente bien en conjuntos de datos pequeños, por lo que no pierde nada.

2 votos

Estás en el rango bajo. La radiofrecuencia funcionará, pero probablemente no aprenderá cosas mucho más complejas que las que se pueden obtener mirando los datos en bruto. Ayuda, si sus datos son de muy bajo ruido. A partir de 40-50 muestras empieza a mejorar. 500 bien. 5000 impresionante.

0 votos

Para la regresión, la profundidad posible del árbol está limitada por minnode=5, por lo que sus muestras no se dividirían en promedio más de 2 veces [[ 24 ->(1) 12 ->(2) 6. ]] Incluyendo la limitación de mtry, el modelo tendría dificultades para capturar cualquier efecto de interacción o incluso un simple efecto no lineal. Usted podría jugar con minnode y mtry, pero sólo debería hacerlo si sus datos prácticamente no tienen ruido. La otra cara de la moneda sería el posible sobreajuste de las conclusiones. La estructura del modelo obtenida se parecería a una función escalonada más o menos suavizada.

17voto

Dipstick Puntos 4869

Bosque aleatorio es básicamente el remuestreo bootstrap y el entrenamiento de los árboles de decisión en las muestras, por lo que la respuesta a su pregunta debe abordar estos dos aspectos.

Remuestreo Bootstrap es no es una cura para las muestras pequeñas . Si sólo tiene veinticuatro observaciones en su conjunto de datos, entonces cada una de las muestras tomadas con reemplazo de estos datos consistiría en no más de los veinticuatro valores distintos. Barajar los casos y no extraer algunos de ellos no cambiaría mucho su capacidad de aprender algo nuevo sobre la distribución subyacente. Así que una muestra pequeña es un problema para bootstrap.

Árboles de decisión se entrenan dividiendo los datos condicionalmente en las variables predictoras, una variable cada vez, para encontrar las submuestras que tienen mayor poder discriminatorio. Si sólo tiene veinticuatro casos, digamos que si tiene suerte y todas las divisiones son de tamaño uniforme, entonces con dos divisiones acabará con cuatro grupos de seis casos, y con tres divisiones, con ocho grupos de tres. Si se calculan las medias condicionales de las muestras (para predecir los valores continuos en los árboles de regresión, o las probabilidades condicionales en los árboles de decisión), ¡se basaría la conclusión sólo en esos pocos casos! Así que las submuestras que utilizarías para tomar las decisiones serían incluso más pequeñas que tus datos originales.

Con muestras pequeñas suele ser conveniente utilizar métodos sencillos . Además, se puede recuperar la muestra pequeña utilizando priores informativos en el entorno bayesiano (si se tiene algún conocimiento razonable fuera de los datos sobre el problema), por lo que se podría considerar el uso de algún modelo bayesiano a medida.

5voto

user777 Puntos 10934

Por un lado, se trata de un conjunto de datos pequeño, y el bosque aleatorio requiere muchos datos.

Por otro lado, quizá algo sea mejor que nada. No hay nada más que decir que "pruébalo y verás". Usted decide si un modelo concreto es "bueno" o no; además, nosotros no podemos decirle si un modelo es adecuado para un fin concreto (ni tampoco querría que lo hiciéramos: ¡no nos cuesta nada equivocarnos!).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X