Al hacer predicciones con bosques aleatorios, muy a menudo (o siempre) necesitamos realizar algún preprocesamiento.
Esto no es cierto. Random Forest está realmente "disponible".
Valores atípicos. ¿Debemos eliminarlos todos? [ ] basándonos en la regla 3/2? ¿Deberíamos mantenerlos? ¿Por qué?
El modelo base utilizado en RF es un gran árbol de decisión (normalmente construido mediante CART). Los árboles de decisión son resistentes a los valores atípicos, porque los aíslan en pequeñas regiones del espacio de características. Entonces, dado que la predicción para cada hoja es la media (para regresión) o la clase mayoritaria (para clasificación), al estar aislados en hojas separadas, los valores atípicos no influirán en el resto de las predicciones (en el caso de la regresión, por ejemplo, no afectarían a la media de las otras hojas). En resumidas cuentas: no le importan los valores atípicos en RF. Basta con eliminarlos si son observaciones aberrantes (por ejemplo, debido a errores de registro). Si son casos válidos, puede conservarlos.
Cuando se trata de deltas de observaciones (como ejemplo restando la nota de un alumno de otra), ¿debo normalizar el delta de todos los alumnos o ceñirme al delta absoluto? Si nos ceñimos a mismo alumno examen sumo sus últimas notas). ¿El proceso debería ser el mismo?
La cuestión aquí no está realmente relacionada con la RF, es independiente del algoritmo. La verdadera pregunta es: ¿qué quieres hacer? ¿Qué quiere predecir?
¿Necesitamos aplicar alguna transformación de datos como log o cualquier otra? Si ¿cuándo hay que hacerlo? ¿Cuando el rango de datos es grande? ¿Qué sentido tiene de cambiar el dominio de los datos aquí?
Por las mismas razones por las que no hay que preocuparse por los valores atípicos, no es necesario aplicar ningún tipo de transformación de datos cuando se utiliza la RF. Para la clasificación, puede que necesite aplicar algún tipo de estrategia de remuestreo/ponderación si tiene un problema de desequilibrio de clases, pero eso es todo.
I clasificación, de modo que la salida sería (supongamos que las clases son 0, 1, 2) 0,132, 0,431; ¿sería más preciso?
No puede aplicar la regresión si su objetivo es categórico.
¿En qué tipo de problemas está más indicado Random Forest? ¿Grandes conjuntos de datos conjuntos de datos?
La radiofrecuencia está indicada para todo tipo de problemas. La gente (especialmente en el campo de la medicina, la genómica, etc.) incluso la utiliza principalmente por sus medidas de importancia variable. En genética, donde los tipos se enfrentan a los "pequeños $n$ - grande $p$ ", RF también lo hace muy bien. En cualquier caso, el aprendizaje automático en general requiere una cantidad suficiente de datos de entrenamiento y de prueba, aunque no hay una regla general. Si sus datos de entrenamiento representan todos sus conceptos y si estos conceptos son fácilmente capturables, un par de cientos de observaciones pueden ser suficientes. Sin embargo, si lo que se debe aprender es muy complejo y si algunos conceptos no están suficientemente representados, se necesitarán más datos de entrenamiento.
¿Debo descartar las variables menos importantes? Tal vez sólo crea ruido?
Otra característica interesante de los árboles de decisión construidos mediante CART es que dejan de lado automáticamente las variables no importantes (sólo se seleccionan los mejores divisores en cada división). En el libro seminal de Hastie et al. (2009) Los autores demostraron que con 100 predictores de ruido puro y 6 predictores relevantes, las variables relevantes se seleccionaban el 50% de las veces en cada división. Por lo tanto, no es necesario preocuparse por la selección de variables en RF. Por supuesto, si sabe que algunas variables no contribuyen, no las incluya, pero si los mecanismos subyacentes del proceso que está estudiando son en su mayoría desconocidos, puede incluir todos sus predictores candidatos.