Leo Brieman escribió que "la dimensionalidad puede ser una bendición". En general, los bosques aleatorios se pueden ejecutar en grandes conjuntos de datos sin problemas. ¿Qué tan grande es sus datos? Diferentes campos de manejar las cosas de diferentes maneras dependiendo de conocimiento de la materia. Por ejemplo, en estudios de expresión génica de los genes a menudo son desechados basada en los bajos de la varianza (sin mirar en el resultado) en un proceso a veces se denomina no-específicos de filtrado. Esto puede ayudar con el tiempo de funcionamiento en bosques aleatorios. Pero no es necesario.
Siguiendo con la expresión de los genes ejemplo, a veces los analistas de uso de la PCA de las puntuaciones representan mediciones de expresión de genes. La idea es reemplazar perfiles similares con una puntuación que es potencialmente menos complicado. Bosques aleatorios se puede ejecutar tanto en las variables originales o el PCA puntuaciones (un sustituto para las variables). Algunos han reportado mejores resultados con este método, pero no hay buenas las comparaciones, para mi conocimiento.
En suma, no hay necesidad de hacer PCA antes de ejecutar RF. Pero se puede. La interpretación puede cambiar en función de sus objetivos. Si todo lo que quiero hacer es predecir, la interpretación puede ser menos importante.