Así que estoy trabajando con modelos de regresión logística en R. a Pesar de que soy nueva en estadísticas me siento como que tengo un poco de comprensión para los modelos de regresión por ahora, pero todavía hay algo que me molesta:
Mirando la imagen vinculada, usted puede ver el resumen de R impresiones de un modelo de ejemplo que he creado. El modelo está tratando de predecir, si un correo electrónico en el conjunto de datos será devuelto o no (variable binaria isRefound
) y el conjunto de datos contiene dos variables estrechamente relacionadas con la isRefound
, es decir, next24
y next7days
- estos también son binarias y saber si un correo electrónico se hace clic en las próximas 24 horas / 7 días a partir del punto actual en los registros.
El alto valor de p debe indicar, que el impacto de esta variable en la predicción del modelo es bastante aleatorio, ¿no? Basado en esto, no entiendo por qué la precisión de las predicciones de los modelos cae por debajo del 10% cuando estas dos variables están a la izquierda de la fórmula de cálculo. Si estas variables muestran una baja importancia, ¿por qué la eliminación de ellos de la modelo tiene un gran impacto?
Saludos y gracias de antemano, Rickyfox
EDITAR:
Primero me quitan next24, lo cual debería producir un bajo impacto debido a que el coeficiente es bastante pequeña. Como era de esperar, poco ha cambiado - no voy a subir una foto para que.
La eliminación de next7days tho tenido un gran impacto en el modelo: AIC 200k, precisión hacia abajo hasta el 16% y el recuerdo hacia el 73%