15 votos

PCA en alto-dimensional de datos de texto antes de bosque aleatorio de clasificación?

¿Tiene sentido hacer PCA antes de llevar a cabo un Bosque Aleatorio de Clasificación?

Estoy lidiando con unas dimensiones de datos de texto, y quiero hacer la reducción de características para ayudar a evitar la maldición de la dimensionalidad, pero no al Azar Bosques ya a algún tipo de reducción de dimensiones?

12voto

Ahsan Puntos 43

Leo Brieman escribió que "la dimensionalidad puede ser una bendición". En general, los bosques aleatorios se pueden ejecutar en grandes conjuntos de datos sin problemas. ¿Qué tan grande es sus datos? Diferentes campos de manejar las cosas de diferentes maneras dependiendo de conocimiento de la materia. Por ejemplo, en estudios de expresión génica de los genes a menudo son desechados basada en los bajos de la varianza (sin mirar en el resultado) en un proceso a veces se denomina no-específicos de filtrado. Esto puede ayudar con el tiempo de funcionamiento en bosques aleatorios. Pero no es necesario.

Siguiendo con la expresión de los genes ejemplo, a veces los analistas de uso de la PCA de las puntuaciones representan mediciones de expresión de genes. La idea es reemplazar perfiles similares con una puntuación que es potencialmente menos complicado. Bosques aleatorios se puede ejecutar tanto en las variables originales o el PCA puntuaciones (un sustituto para las variables). Algunos han reportado mejores resultados con este método, pero no hay buenas las comparaciones, para mi conocimiento.

En suma, no hay necesidad de hacer PCA antes de ejecutar RF. Pero se puede. La interpretación puede cambiar en función de sus objetivos. Si todo lo que quiero hacer es predecir, la interpretación puede ser menos importante.

1voto

Donbeo Puntos 760

PCA antes de bosque aleatorio puede ser útil, no sólo para la reducción de dimensionalidad, pero para darle los datos de una forma donde el bosque aleatorio puede realizar mejor.

Yo estoy tranquilo seguro de que en general si se transforme sus datos con PCA mantener la misma dimensionalidad de los datos originales, usted tendrá una mejor clasificación con bosque aleatorio

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X