12 votos

PCA y bosques aleatorios

Para una reciente competición de Kaggle, definí (manualmente) 10 características adicionales para mi conjunto de entrenamiento, que luego se utilizarían para entrenar un clasificador de bosques aleatorios. Decidí ejecutar PCA en el conjunto de datos con las nuevas características, para ver cómo se comparaban entre sí. Descubrí que el primer componente (el primer vector propio) representaba el 98% de la varianza. A continuación, entrené el clasificador varias veces, añadiendo una característica cada vez, y utilicé la validación cruzada y el error RMS para comparar la calidad de la clasificación. Descubrí que las clasificaciones mejoraban con cada característica adicional, y que el resultado final (con las 10 nuevas características) era mucho mejor que la primera ejecución con (digamos) 2 características.

  • Dado que el ACP afirmaba que el ~98% de la varianza se encontraba en el primer componente de mi conjunto de datos, ¿por qué mejoró tanto la calidad de las clasificaciones?

  • ¿Sería esto cierto para otros clasificadores? RF se escala a través de múltiples núcleos, por lo que es mucho más rápido de entrenar que (digamos) SVM.

  • ¿Qué pasaría si transformara el conjunto de datos en el espacio "PCA" y ejecutara el clasificador en el espacio transformado? ¿Cómo cambiarían mis resultados?

7voto

Shea Parkes Puntos 2014

Cuando se hace un modelo predictivo, se intenta explicar la variación de la respuesta, no la variación de las características. No hay ninguna razón para creer que la mayor parte de la variación de los rasgos en un solo rasgo nuevo capturará una gran cantidad del poder predictivo de los rasgos en su conjunto.

Esto se explica a menudo como la diferencia entre la regresión de componentes principales en lugar de los mínimos cuadrados parciales.

6voto

mat_geek Puntos 1367

El primer componente principal es una combinación lineal de todas sus características. El hecho de que explique casi toda la variabilidad sólo significa que la mayoría de los coeficientes de las variables del primer componente principal son significativos.

Ahora bien, los árboles de clasificación que se generan también son un poco diferentes. Hacen divisiones binarias en variables continuas que separan mejor las categorías que quieres clasificar. Eso no es exactamente lo mismo que encontrar combinaciones lineales ortogonales de variables continuas que den la dirección de mayor varianza. De hecho, hace poco hablamos de un artículo sobre CV en el que se utilizaba el ACP para el análisis de conglomerados y los autores descubrieron que hay situaciones en las que la mejor separación no se encuentra en los primeros componentes principales, sino en los últimos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X