Estoy tratando de construir un modelo de regresión logística donde tengo una variable dependiente $y$ y las variables independientes $x_1$, $x_2$... $x_n$. $y$ sólo puede tomar dos valores: 0 o 1.
Mi original modelado conjunto de datos tiene 100.000 observaciones - que he dividido en dos muestras, una formación de la muestra, con 80.000 observaciones y una muestra de la prueba de 20.000 observaciones. Las muestras fueron creados de manera aleatoria, manteniendo la misma proporción de 1 a 0, en tanto que las muestras (utilizando el SURVEYSELECT procedimiento en el SAS y $y$ ESTRATOS).
Supongamos que el porcentaje de observaciones con el valor 1 para$y$, tanto en las muestras es de 10%.
Yo uso la LOGÍSTICA de procedimiento en el SAS en la formación de la muestra para llegar a variables $x_1$ - $x_5$ que constituyen mi modelo final. Los p-valores asociados con la Wald Chi Cuadrado son todos <0,0001, que indican que son importantes en el 99.99% de nivel de confianza.
Sin embargo, cuando ejecuto la LOGÍSTICA de procedimiento en la muestra de prueba, utilizando sólo $x_1$ - $x_5$ como variables independientes, uno de ellos decir $x_4$ deja de ser significativa en la regresión de las salidas, es decir, el asociado p-valor es de 0.6.
¿Significa esto que mi muestreo no es la correcta? O el modelo que yo obtener a partir de la formación de la muestra 'overfits" de los datos? O ambos?
Debería estar preocupado por esto y asegurarse de que el final de las variables elijo son importantes en tanto que las muestras o esto no es un problema en general?