No veo ninguna relación con underfitting o sobreajuste. Es más acerca de cómo aplicar el mismo tipo de transformación con diferentes parámetros. He intentado ZCAWhitening en MNIST de datos con diversos datasize m = 10k 10k, 100. Mi intuición era que la misma transformación con los mismos parámetros(mu,sigma) debe ser aplicado. De lo contrario, los datos de entrenamiento o de prueba obtener sesgada. Podemos pensar en ella como la adición de la 1.0 a la del conjunto de entrenamiento, mientras que la adición de 1.2 a prueba de conjunto. Conjunto de pruebas de obtener sesgada por 0.2 en esta condición. Debemos esperar tener resultados similares si aplicamos ZCAWhitening por separado? Yo digo que sí, sólo si la formación y la prueba de conjunto suficientemente numerosos ejemplos. (Si subyacente variación no es mucho, pequeño conjunto de datos también muestran resultados similares, debido a su intrínseca estructuras similares) Como el número de ejemplos aumenta, la variación entre cada conjunto disminuye, por lo que podemos recopilar bastante similar mu, sigma, etc. Aquí están los resultados:
m = 10k
común de normalización = 94.980%
separada de normalización = 94.740%
m = 1k
común de normalización = 81.500%
separada de normalización = 79.600%
m = 100
común de normalización = 70.000%
separada de normalización = 65.000%
Es claro que a medida que el número de muestras aumenta la diferencia entre las separados de la normalización dicreases, como resultado de la disminución del error de muestreo.