Si la varianza del conjunto de datos de prueba es menor que el de uno de los trenes conjunto de datos que vale la pena dividir los datos? Ya que sabemos que nuestro conjunto de datos siempre será limitado, ¿es justo para seleccionar los modelos bajo la condición anterior? Gracias
Respuestas
¿Demasiados anuncios?No necesariamente. Lo que es más importante es el condicional de distribución de $Y|X$ siendo constantes en ambos conjuntos de datos. En otras palabras, si $Y$ de la varianza en el conjunto de datos de prueba es mayor, podría ser que $X$ varianza es también mayor y el conjunto de los coeficientes explicará $Y$ varianza igual de bien.
Parcela Y ~ X en ambos conjuntos de datos y ajuste de una línea de regresión en cada parcela. ¿Qué ves?
Primero tiene que averiguar por qué la división de los datos. La única razón por la que viene inmediatamente a la mente es que el ajuste del modelo es tan laborioso que sólo puede hacerlo una vez. De lo contrario, los métodos de remuestreo son mucho mejores, comenzando con la Efron-Gong optimismo bootstrap (ver, por ejemplo, el R rms
paquete) o 10-fold cross-validation repetido 100 veces.