10 votos

Significado del valor de p de variables del modelo de regresión logística

Así que estoy trabajando con modelos de regresión logística en R. a Pesar de que soy nueva en estadísticas me siento como que tengo un poco de comprensión para los modelos de regresión por ahora, pero todavía hay algo que me molesta:

Mirando la imagen vinculada, usted puede ver el resumen de R impresiones de un modelo de ejemplo que he creado. El modelo está tratando de predecir, si un correo electrónico en el conjunto de datos será devuelto o no (variable binaria isRefound) y el conjunto de datos contiene dos variables estrechamente relacionadas con la isRefound , es decir, next24 y next7days - estos también son binarias y saber si un correo electrónico se hace clic en las próximas 24 horas / 7 días a partir del punto actual en los registros.

El alto valor de p debe indicar, que el impacto de esta variable en la predicción del modelo es bastante aleatorio, ¿no? Basado en esto, no entiendo por qué la precisión de las predicciones de los modelos cae por debajo del 10% cuando estas dos variables están a la izquierda de la fórmula de cálculo. Si estas variables muestran una baja importancia, ¿por qué la eliminación de ellos de la modelo tiene un gran impacto?

Saludos y gracias de antemano, Rickyfox

enter image description here


EDITAR:

Primero me quitan next24, lo cual debería producir un bajo impacto debido a que el coeficiente es bastante pequeña. Como era de esperar, poco ha cambiado - no voy a subir una foto para que.

La eliminación de next7days tho tenido un gran impacto en el modelo: AIC 200k, precisión hacia abajo hasta el 16% y el recuerdo hacia el 73%

enter image description here

11voto

Jared Farrish Puntos 120

Básicamente, parece que están teniendo un problema de la multicolinealidad. Hay una gran cantidad de material disponible acerca de este, a partir de este sitio web o en la wikipedia.

Brevemente, los dos predictores parecen ser genuinamente relacionados con su resultado, pero son también, probablemente, muy correlacionadas entre sí (tenga en cuenta que con más de dos variables, es posible tener problemas de multicolinealidad sin fuertes correlaciones bivariadas). Este es, por supuesto, hacer un montón de sentido: Todos los correos electrónicos clic en el plazo de 24 horas también se han hecho clic en el plazo de 7 días (por definición) y la mayoría de los correos electrónicos que probablemente no hemos hecho clic en todos (no en 24 horas y no en 7 días).

Una forma de que esta se muestre en la salida que se presenta es a través de la increíblemente grandes errores estándar/CI para los correspondientes coeficientes (a juzgar por el hecho de que usted está usando bigglm y que incluso pequeñas coeficientes son altamente significativos, parece que su tamaño de la muestra debe ser más que suficiente para obtener buenas estimaciones). Otras cosas que usted puede hacer para detectar este tipo de problemas: Mira pares de correlaciones, quitar sólo uno de los sospechosos variables (según lo sugerido por @Nick Sabbe), la prueba de significación para ambas variables conjuntamente.

Más en general, de alta p-valores no significa que el efecto es pequeño, o al azar, sino sólo que no hay ninguna evidencia de que el coeficiente es distinto de 0. También puede ser muy grande, sólo que no sé (ya sea porque el tamaño de la muestra es demasiado pequeña o porque hay algún otro problema con el modelo).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X