Este es mi primer post en Stackexchange, así que por favor corregidme en lo que sea si lo estoy haciendo mal.
Acabo de encontrarme con esto pregunta Yo estaba luchando con el mismo problema, pero los mensajes allí aclararon mucho las cosas. Mi pregunta recoge un Slack de la discusión de esa pregunta.
En una respuesta a la último comentario preguntó el director de la empresa:
Bien. Los coeficientes obtenidos para los datos originales y los normalizados son muy diferentes. Ahora bien, si la normalización es un procedimiento recomendado, ¿cómo puedo normalizar unos nuevos datos de prueba para los que tengo que predecir y. ¿Tengo que utilizar la misma media y la misma desviación estándar de los datos de entrenamiento o deben calcularse a partir de los propios datos de prueba? Y si se utilizan los coeficientes de los datos normalizados, las predicciones están completamente fuera de escala. ¿Cómo se aborda esta cuestión?
Yo quería recoger esa carga. Conozco la respuesta correcta que se dio en respuesta a esta pregunta (desestandarizar los coeficientes estandarizados que se derivaron de los datos de entrenamiento estandarizados y aplicarlos a los nuevos datos de prueba entrantes para obtener predicciones).
Sin embargo, me preguntaba qué pensáis sobre cómo manejar y (es decir, el resultado, no los predictores X) de los datos de prueba en términos de su media. Más concretamente: después de haber ajustado mi regresión de Ridge a los datos de entrenamiento y haber desestandarizado los coeficientes resultantes, incluido el intercepto, podría aplicarlo a los datos de prueba.
Pero, incluso si mis betas de gradiente ajustadas (es decir, las betas sin intercepción) reflejan bien la tendencia en los datos de prueba, podría ser que la intercepción ('media') de y en los datos de prueba sea muy diferente a la media de y en los datos de entrenamiento (= la intercepción del modelo de cresta). Si juzgo el ajuste de mi modelo de cresta utilizando R^2, el ajuste sería malo, pero únicamente debido a las diferencias de intercepción.
Por lo tanto, me preguntaba si tiene sentido centrar y_test, ya sea con su propia media o con la media de y_train.
¿Alguien tiene alguna idea al respecto?