5 votos

PCA en conjuntos de datos de entrenamiento y prueba: ¿debo ejecutar un PCA en entrenamiento+prueba o dos por separado en entrenamiento y prueba?

Estoy realizando una tarea de clasificación de imágenes y el número de características de cada imagen de ejemplo es bastante grande (3.072: # píxeles en cada imagen). Estoy pensando en utilizar PCA para reducir el # características de cada imagen a $n$ (decir $n = 100$ ), y luego usar SVM para aprender y clasificar usando el espacio de características reducido. Me pregunto cuál de estos dos caminos debo seguir.

  1. PCA en el conjunto de entrenamiento $T$ y utilizar SVM para aprender sobre nuevos $T$ con dimensiones reducidas. Para la predicción, PCA de nuevo en el conjunto de prueba $S$ y utilizar los parámetros SVM aprendidos para clasificar.

  2. PCA en ambos $T$ y $S$ al mismo tiempo. Es decir, fusionar $T+S$ en una gran matriz y aplicarles el ACP. A continuación, dividir la matriz de dimensión reducida en $T$ y $S$ de nuevo. Aprender la SVM en el reducido $T$ y luego utilizar la SVM aprendida para predecir en la reducida $S$ .

23voto

Yang Puntos 179

(1) es incorrecto, porque si ejecuta PCA en los dos conjuntos por separado, terminará con dos espacios diferentes. No se puede entrenar un clasificador en un espacio y aplicarlo a otro diferente.

(2) es hacer trampa. Cuando se entrena un clasificador, no se puede utilizar ninguna información del conjunto de pruebas.

La forma correcta sería ejecutar PCA en el conjunto de entrenamiento, guardar los componentes principales que utilice y, a continuación, utilizarlos para transformar los puntos de su conjunto de prueba. De este modo, los puntos de ambos conjuntos terminan en el mismo espacio y no se utiliza ningún conocimiento sobre el conjunto de prueba durante el entrenamiento.

Como alternativa, puede utilizar un conjunto de datos totalmente independiente, sólo para calcular los componentes principales. A continuación, proyecte el conjunto de entrenamiento y el conjunto de prueba en el espacio definido por ellos.

1voto

katya Puntos 1224

En el contexto de este problema, (2) tiene más sentido, porque de lo contrario es posible que ni siquiera tenga las mismas características que está tratando de clasificar (es decir, las dimensiones reducidas pueden significar cosas muy diferentes). Véase aquí un análisis más detallado https://stackoverflow.com/questions/10818718/principal-component-analysis

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X