5 votos

Debe de tren y de la prueba de conjuntos de datos similares varianza?

Si la varianza del conjunto de datos de prueba es menor que el de uno de los trenes conjunto de datos que vale la pena dividir los datos? Ya que sabemos que nuestro conjunto de datos siempre será limitado, ¿es justo para seleccionar los modelos bajo la condición anterior? Gracias

4voto

rvk Puntos 11

No necesariamente. Lo que es más importante es el condicional de distribución de $Y|X$ siendo constantes en ambos conjuntos de datos. En otras palabras, si $Y$ de la varianza en el conjunto de datos de prueba es mayor, podría ser que $X$ varianza es también mayor y el conjunto de los coeficientes explicará $Y$ varianza igual de bien.

Parcela Y ~ X en ambos conjuntos de datos y ajuste de una línea de regresión en cada parcela. ¿Qué ves?

3voto

dan90266 Puntos 609

Primero tiene que averiguar por qué la división de los datos. La única razón por la que viene inmediatamente a la mente es que el ajuste del modelo es tan laborioso que sólo puede hacerlo una vez. De lo contrario, los métodos de remuestreo son mucho mejores, comenzando con la Efron-Gong optimismo bootstrap (ver, por ejemplo, el R rms paquete) o 10-fold cross-validation repetido 100 veces.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X