He leído muchos de contradecir las opiniones de los que me siento como tengo que hacer la pregunta a mí mismo.
Decir que el uso de la PCA en un conjunto de datos con 60 variables y parece que me puede explicar el 98% de la varianza con 6 componentes principales y puedo obtener un buen modelo de predicción de lo que quiero.
Ahora tengo nuevos datos (pruebas), estos datos deben luego ser traducido a la misma "PCA" espacio de la orden para mi modelo para interpretar correctamente? Así que me gustaría escala utilizando la misma escala utilizada en mi entrenamiento de datos y, a continuación, utilizar la carga de las puntuaciones en el original de la PCA para traducir mis nuevos datos "PCA espacio"?
La razón por la que estoy pidiendo es que he visto un montón de gente haciendo PCA antes de hacer la prueba/el tren se divide por lo que sus datos de pruebas ya se "transforma", esto parece como un error para mí? No debería el PCA ser utilizado en los datos de entrenamiento de forma exclusiva y, a continuación, utilizando las cagas de que la PCA de traducir los datos de prueba a la misma dimensionalidad?