7 votos

Uso de PCA para reducir la dimensionalidad de los datos de entrenamiento y pruebas

He leído muchos de contradecir las opiniones de los que me siento como tengo que hacer la pregunta a mí mismo.

Decir que el uso de la PCA en un conjunto de datos con 60 variables y parece que me puede explicar el 98% de la varianza con 6 componentes principales y puedo obtener un buen modelo de predicción de lo que quiero.

Ahora tengo nuevos datos (pruebas), estos datos deben luego ser traducido a la misma "PCA" espacio de la orden para mi modelo para interpretar correctamente? Así que me gustaría escala utilizando la misma escala utilizada en mi entrenamiento de datos y, a continuación, utilizar la carga de las puntuaciones en el original de la PCA para traducir mis nuevos datos "PCA espacio"?

La razón por la que estoy pidiendo es que he visto un montón de gente haciendo PCA antes de hacer la prueba/el tren se divide por lo que sus datos de pruebas ya se "transforma", esto parece como un error para mí? No debería el PCA ser utilizado en los datos de entrenamiento de forma exclusiva y, a continuación, utilizando las cagas de que la PCA de traducir los datos de prueba a la misma dimensionalidad?

6voto

Nick Chambers Puntos 23

Sí, esta es una forma común de sobreajuste del modelo a los datos de prueba. En la PNL un error similar es hacer la selección del vocabulario y de la bolsa-de-palabras de vectorización en el pleno de tren/datos de la prueba.

Esto es un poco insidiosa, ya que el modelo de selección es mucho más fácil con la mayoría de las herramientas una vez que tienes tu característica de la matriz. Además, el "impulso" que se recibe no es alarmantemente grande, así que es tentador pensar que su modelo es grande y la palmadita en la espalda.

En una nota positiva, creo que este era mucho más común 5-10 hace diez años y la mayoría de los practicantes son sabios a este error hoy.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X