No vi la conferencia, así que no puedo comentar lo que se dijo.
Mi $0.02: Si desea obtener buenas estimaciones de rendimiento utilizando remuestreo, usted realmente debe hacer todas las operaciones durante el remuestreo en lugar de antes. Esto es realmente cierto de la selección de características [1], así como las operaciones no triviales como PCA. Si añade incertidumbre a los resultados, inclúyalo en el remuestreo.
Piense en la regresión de componentes principales: PCA seguido de regresión lineal sobre algunos de los componentes. PCA estima parámetros (con ruido) y también hay que elegir el número de componentes (valores diferentes darán resultados diferentes => más ruido).
Digamos que utilizamos un CV de 10 pliegues con el esquema 1:
conduct PCA
pick the number of components
for each fold:
split data
fit linear regression on the 90% used for training
predict the 10% held out
end:
o esquema 2:
for each fold:
split data
conduct PCA on the 90% used for training
pick the number of components
fit linear regression
predict the 10% held out
end:
Debe quedar claro que el segundo enfoque debe producir estimaciones de error que reflejen la incertidumbre causada por el ACP, la selección del número de componentes y la regresión lineal. En efecto, el CV del primer esquema no tiene ni idea de lo que le ha precedido.
Soy culpable de no hacer siempre todas las operaciones con remuestreo, pero sólo cuando no me importan realmente las estimaciones de rendimiento (lo que no es habitual).
¿Hay mucha diferencia entre los dos sistemas? Depende de los datos y del preprocesamiento. Si sólo está centrando y escalando, probablemente no. Si tiene muchos datos, probablemente no. A medida que se reduce el tamaño del conjunto de entrenamiento, aumenta el riesgo de obtener estimaciones deficientes, especialmente si n es cercano a p.
Puedo decir con certeza por experiencia que no incluir la selección supervisada de características dentro del remuestreo es una muy mala idea (sin grandes conjuntos de entrenamiento). No veo por qué el preprocesamiento sería inmune a esto (hasta cierto punto).
@mchangun: Creo que el número de componentes es un parámetro de ajuste y probablemente querrías elegirlo usando estimaciones de rendimiento que sean generalizables. Usted podría elegir automáticamente K tal que al menos X% de la varianza se explica e incluir ese proceso dentro de remuestreo por lo que tenemos en cuenta el ruido en ese proceso.
Max
[1] Ambroise, C., & McLachlan, G. (2002). Selection bias in gene extraction on the basis of microarray gene-expression data. Actas de la Academia Nacional de Ciencias, 99(10), 6562-6566.