4 votos

En la regresión logística, no a la falta de significación de las estimaciones de los parámetros en una muestra de prueba indican sobreajuste?

Estoy tratando de construir un modelo de regresión logística donde tengo una variable dependiente $y$ y las variables independientes $x_1$, $x_2$... $x_n$. $y$ sólo puede tomar dos valores: 0 o 1.

Mi original modelado conjunto de datos tiene 100.000 observaciones - que he dividido en dos muestras, una formación de la muestra, con 80.000 observaciones y una muestra de la prueba de 20.000 observaciones. Las muestras fueron creados de manera aleatoria, manteniendo la misma proporción de 1 a 0, en tanto que las muestras (utilizando el SURVEYSELECT procedimiento en el SAS y $y$ ESTRATOS).

Supongamos que el porcentaje de observaciones con el valor 1 para$y$, tanto en las muestras es de 10%.

Yo uso la LOGÍSTICA de procedimiento en el SAS en la formación de la muestra para llegar a variables $x_1$ - $x_5$ que constituyen mi modelo final. Los p-valores asociados con la Wald Chi Cuadrado son todos <0,0001, que indican que son importantes en el 99.99% de nivel de confianza.

Sin embargo, cuando ejecuto la LOGÍSTICA de procedimiento en la muestra de prueba, utilizando sólo $x_1$ - $x_5$ como variables independientes, uno de ellos decir $x_4$ deja de ser significativa en la regresión de las salidas, es decir, el asociado p-valor es de 0.6.

¿Significa esto que mi muestreo no es la correcta? O el modelo que yo obtener a partir de la formación de la muestra 'overfits" de los datos? O ambos?

Debería estar preocupado por esto y asegurarse de que el final de las variables elijo son importantes en tanto que las muestras o esto no es un problema en general?

6voto

Zizzencs Puntos 1358

Aún no overfit su modelo, lo que ha hecho es demostrar (una vez más) que paso a paso, hacia adelante y hacia atrás métodos no funcionan bien para este tipo de tareas. (A pesar de que era muy bueno que usted utiliza una de entrenamiento y de prueba, este te deja ver que estos métodos pueden encontrar cosas que no existen).

Modelo de selección es un tema importante y a menudo ha sido objeto de debate, tanto aquí como en otros lugares. Me gustaría general, asesorar en contra de cualquier variable automática esquema de selección, pero si debe usar una, le sugiero LAZO o LAR. Puesto que usted está utilizando SAS, usted puede encontrar estos en GLMSELECT. Aunque esto está pensado para los modelos que pueden encajar con PROC GLM, he de tener buenos resultados usando para los modelos logísticos y, a continuación, las pruebas de los modelos resultantes más en la LOGÍSTICA.

0voto

Diana Grimaldi Puntos 11

Puede significar muchas cosas, puede significar que sus datos miss observaciones críticas, se puede decir que el problema que se enfrenta no es tan soluble como pensaba (por ejemplo, tratando de adaptarse a una no lineal determinstic modelo para algunos iid flujo de datos), y sí, seguro, para el caso que usted ha demostrado, también puede significar que su modelo es, o más inadecuada hablando, mal equipado.

La caja negra de la modelización es siempre duro, mal ajustada o el sobreajuste es un resultado común cuando uno intenta ciegamente a algunos al azar elegido, modelo estándar de las estructuras de datos que básicamente tienen ni idea de la phyiscs de la práctica del sistema. Para muchos problemas prácticos, uno tiene que tiene algo decente comprensión de la subrayando la física del sistema de un intento de modelo para el desarrollo de un modelo adecuado, no es un "defecto" o método estandarizado de rutina para la modelización y no hay atajos, y es por eso que modeladores experimentados/mineros de datos son todos muy muy bien recompensado en la industria.

Editado: Como para el método de lazo, personalmente no creo lazo método es muy útil, si el problema puede ser resuelto por la herramienta lazo, sin duda puede ser resuelto por muchos otros métodos de regresión, althrough en diversos grados, la OP del problema (por ejemplo, con 20000 elegido al azar muestras de prueba) no es probable que sea el caso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X