1 votos

Preprocesamiento - ¿Se aplica a los tres conjuntos (entrenamiento/validación/prueba)?

Por lo que he entendido de las preguntas contestadas anteriormente, se supone que debes hacer tu preprocesamiento en cada conjunto después de dividir tus datos en conjuntos de entrenamiento y de prueba. Pero no estoy seguro de dónde entra el conjunto de validación. ¿Debo preprocesarlo también por separado del conjunto de entrenamiento? ¿O debo preprocesar el conjunto de entrenamiento como un todo y luego separar el conjunto de validación?

Estoy 99% seguro de que hay que hacer los tres por separado, pero la forma en que está redactada mi tarea me hizo dudar, así que pensé en buscar una respuesta/opinión aquí.

2voto

Peter Rabbit Puntos 36

Debería hacer el mismo preprocesamiento en todos sus datos, sin embargo, si ese preprocesamiento depende de los datos (por ejemplo, estandarización, pca) entonces debería calcularlo en sus datos de entrenamiento y luego usar los parámetros de ese cálculo para aplicarlo a sus datos de validación y prueba.

Por ejemplo, si está centrando sus datos (restando la media), entonces debe calcular la media de sus datos de entrenamiento SOLO y luego restar esa misma media de todos sus datos (es decir, restar la media de los datos de entrenamiento de los datos de validación y prueba, NO calcular 3 medias separadas).

Para la validación cruzada, tendrás que calcularla para cada iteración en los pliegues del conjunto de entrenamiento y luego aplicar ese cálculo al pliegue de validación. Si a continuación entrenas un modelo utilizando todos tus datos, entonces tendrás que encontrar los parámetros para el paso de preprocesamiento utilizando todos los datos CV.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X