Para medir el error de generalización, hay que hacer esto último: un PCA distinto para cada conjunto de entrenamiento (lo que significaría hacer un PCA distinto para cada clasificador y para cada pliegue de CV).
A continuación, se aplica la misma transformación al conjunto de pruebas: es decir, se hace no ¡hacer un PCA separado en el conjunto de pruebas! Se resta la media (y si es necesario se divide por la desviación estándar) del conjunto de entrenamiento, como se explica aquí: Centrado en cero del conjunto de pruebas tras el PCA en el conjunto de entrenamiento . A continuación, se proyectan los datos sobre los PC del conjunto de entrenamiento.
-
Tendrá que definir un criterio automático para el número de PCs a utilizar.
Como es sólo un primer paso de reducción de datos antes de la clasificación "real", el uso de unos pocos PCs de más probablemente no perjudicará el rendimiento. Si tienes una expectativa de cuántos PCs serían buenos por experiencia, puedes usarlos.
-
También puede comprobar después si era necesario rehacer el ACP para cada modelo sustitutivo (repitiendo el análisis con un solo modelo de ACP). Creo que vale la pena informar del resultado de esta prueba.
-
Una vez medí el sesgo de no repetir el PCA, y encontré que con mis datos de clasificación espectroscópica, detecté sólo la mitad de la tasa de error de generalización cuando no rehacía el PCA para cada modelo sustituto.
-
También es relevante: https://stats.stackexchange.com/a/240063/4598
Dicho esto, se puede construir un adicional Modelo PCA de todo el conjunto de datos con fines descriptivos (por ejemplo, de visualización). Sólo asegúrese de mantener los dos enfoques separados el uno del otro.
Me sigue resultando difícil hacerme una idea de cómo un PCA inicial en todo el conjunto de datos podría sesgar los resultados sin ver las etiquetas de las clases.
Pero sí ve los datos. Y si la varianza entre clases es grande comparada con la varianza dentro de la clase, la varianza entre clases influirá en la proyección del PCA. Por lo general, el paso del PCA se realiza porque se necesita estabilizar la clasificación. Es decir, en una situación en la que los casos adicionales hacer influyen en el modelo.
Si la varianza entre clases es pequeña, este sesgo no será mucho, pero en ese caso tampoco ayudaría el PCA para la clasificación: la proyección del PCA entonces no puede ayudar a enfatizar la separación entre las clases.