6 votos

¿Cómo puede el preprocesamiento con PCA pero manteniendo la misma dimensionalidad mejorar los resultados del bosque aleatorio?

Encontré estas frases:

El PCA antes del bosque aleatorio puede ser útil no para reducir la dimensionalidad dimensionalidad, sino para dar a los datos una forma en la que el bosque aleatorio puede mejor.

Estoy seguro de que, en general, si transformas tus datos con PCA manteniendo la misma dimensionalidad de los datos originales tendrás una mejor clasificación con random forest

de esta página: ¿PCA en datos de texto de alta dimensión antes de la clasificación de bosque aleatorio?

En mi caso encontré que esto es realmente cierto para un problema de regresión con una base de datos de ~1M de registros y 25 predictores. El sitio web El error disminuye en un 10% aproximadamente si utilizo los 25 PCA como predictores en lugar de los 25 predictores originales.

¿Puede alguien ayudarme a entender e interpretar claramente este resultado?

1 votos

En muchos casos, el PCA antes del método supervisado no es recomendable, porque el PCA no tiene en cuenta la variable de respuesta. Pero mantener el mismo número de características, aumentará el rendimiento? buena pregunta..

1 votos

El bosque aleatorio es invariable a la escala, por lo que toda la acción aquí tendría que venir de la rotación y la reflexión en la transformación lineal generada por PCA? ¿Prefiere el bosque aleatorio que (1) algunas características sean extremadamente predictivas mientras que otras son totalmente inútiles en comparación con (2) que todas las características sean algo predictivas?

7voto

user777 Puntos 10934

El bosque aleatorio tiene dificultades cuando el límite de decisión es "diagonal" en el espacio de características porque RF tiene que aproximarse a esa diagonal con muchas divisiones "rectangulares". En la medida en que el PCA reoriente los datos para que las divisiones perpendiculares a los ejes rotados y reescalados se alineen bien con el límite de decisión, el PCA ayudará. Pero no hay razón para creer que el PCA ayudará en general, porque no todos los límites de decisión mejoran cuando se rotan (por ejemplo, un círculo). E incluso si hacer tienen un límite de decisión diagonal, o un límite que sería más fácil de encontrar en un espacio rotado, aplicando El PCA sólo encontrará esa rotación por coincidencia porque PCA no tiene ningún conocimiento sobre el componente de clasificación de la tarea (no es " $y$ -consciente").

Además, la advertencia de @hxd1011 se aplica a todos los proyectos que utilizan PCA para el aprendizaje supervisado: los datos girados por PCA pueden tener poca o ninguna relevancia para el objetivo de clasificación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X