Para una reciente competición de Kaggle, definí (manualmente) 10 características adicionales para mi conjunto de entrenamiento, que luego se utilizarían para entrenar un clasificador de bosques aleatorios. Decidí ejecutar PCA en el conjunto de datos con las nuevas características, para ver cómo se comparaban entre sí. Descubrí que el primer componente (el primer vector propio) representaba el 98% de la varianza. A continuación, entrené el clasificador varias veces, añadiendo una característica cada vez, y utilicé la validación cruzada y el error RMS para comparar la calidad de la clasificación. Descubrí que las clasificaciones mejoraban con cada característica adicional, y que el resultado final (con las 10 nuevas características) era mucho mejor que la primera ejecución con (digamos) 2 características.
-
Dado que el ACP afirmaba que el ~98% de la varianza se encontraba en el primer componente de mi conjunto de datos, ¿por qué mejoró tanto la calidad de las clasificaciones?
-
¿Sería esto cierto para otros clasificadores? RF se escala a través de múltiples núcleos, por lo que es mucho más rápido de entrenar que (digamos) SVM.
-
¿Qué pasaría si transformara el conjunto de datos en el espacio "PCA" y ejecutara el clasificador en el espacio transformado? ¿Cómo cambiarían mis resultados?