La tercera vía es la correcta. El motivo exacto se explica con gran detalle en Los elementos del aprendizaje estadístico Véase la sección "La forma correcta e incorrecta de realizar la validación cruzada", y también en el capítulo final de Aprender de los datos En el ejemplo del mercado de valores.
Esencialmente, los procedimientos 1 y 2 filtran información sobre la respuesta, o del futuro, de su conjunto de datos retenidos en el entrenamiento, o evaluación, de su modelo. Esto puede causar un considerable sesgo de optimismo en la evaluación del modelo.
La idea en la validación del modelo es imitar la situación en la que se encontraría cuando su modelo está tomando decisiones de producción, cuando no tiene acceso a la verdadera respuesta. La consecuencia es que no se puede utilizar la respuesta del conjunto de pruebas para nada excepto comparando con sus valores previstos.
Otra forma de enfocarlo es imaginar que sólo tiene acceso a un punto de datos de su retención a la vez (una situación común para los modelos de producción). Todo lo que no puede hacer bajo esta suposición debe tener una gran sospecha. Está claro que una cosa que no se puede hacer es agregar todos los nuevos puntos de datos pasados y futuros para normalizar el flujo de datos de producción, por lo que hacer lo mismo para la validación del modelo no es válido.
No tienes que preocuparte de que la media de tu conjunto de pruebas sea distinta de cero, esa es una situación mejor que la de sesgar tus estimaciones de rendimiento. Aunque, por supuesto, si la prueba se extrae realmente de la misma distribución subyacente que el tren (un supuesto esencial en el aprendizaje estadístico), dicha media debería ser aproximadamente cero.