si comparo modelos de regresión (con K parámetros), debería utilizar el denominador N-K
Creo que la descripción más general (véase su enlace en la Wiki) es que el denominador son los grados de libertad. Así que si calculas el MSE de tu formación datos, entonces $k$ grados de libertad ya se utilizan para los parámetros.
En el caso del MSE calculado para el prueba datos, el denominador debe ser $n$ Sí: aquí no has utilizado ningún grado de libertad, ya que has restado los valores de referencia.
Otra forma de explicar esto de forma plausible es que las pruebas son totalmente agnósticas del modelo, se tratan como una caja negra que de alguna manera produce predicciones cada vez que se introducen nuevos datos. La complejidad (potencialmente) desconocida de la caja negra no puede entonces entrar en el cálculo del MSE.
Además, una prueba independiente es una prueba de la aplicación real, sólo se diferencia en que se obtiene y se compara con valores de referencia. Por lo tanto, si está interesado en el error cuadrático medio de las predicciones reales, lo simula promediando el error cuadrático de las predicciones de prueba. Desde este punto de vista, el $\frac{1}{n - k}$ La versión de entrenamiento de MSE trata de corregir el sesgo introducido por el doble uso de los datos, que no se tiene para las pruebas reales (ni para una validación cruzada adecuada).
El hecho de que el MSE validado de forma cruzada esté sesgado o no dependerá en la práctica de si la validación cruzada se ha configurado correctamente (divisiones independientes para todo factores que influyen) y si sus datos son representativos (en particular, si quiere extrapolar de casos desconocidos a casos futuros desconocidos). (¡Lo mismo ocurre con los conjuntos de pruebas de retención!)