5 votos

¿Por qué la prueba de chi cuadrado de Pearson detecta diferencias que el modelo GLM no puede detectar?

¿Cómo puedo interpretar el siguiente resultado? Tengo 4 grupos con alrededor de 300 observaciones cada uno:

         Black  Red
Group A   296   14
Group B   292   16
Group C   301    7
Group D   289   23
 

Quiero probar si los grupos tienen una propensión diferente a los resultados de Red .

Cuando uso la prueba de chi-cuadrado de Pearson, el valor de p es 0.03, lo que parece sugerir que los grupos tienen diferentes tendencias. Pero si modelo la diferencia como binomial, el GLM estimado no detecta diferencias significativas entre los grupos.

11voto

Sean Hanley Puntos 2428

No veo una gran diferencia en los resultados:

d = read.table(text="Group Black  Red
                         A   296   14
                         B   292   16
                         C   301    7
                         D   289   23", header=T)

chisq.test(d[,2:3])
#  Pearson's Chi-squared test
# 
# data:  d[, 2:3]
# X-squared = 8.893, df = 3, p-value = 0.03075
mod = glm(cbind(Black, Red)~Group, data=d, family=binomial)
summary(mod)
# ...
# Coefficients:
#             Estimate Std. Error z value Pr(>|z|)    
# (Intercept)   3.0513     0.2735  11.156   <2e-16 ***
# GroupB       -0.1471     0.3751  -0.392    0.695    
# GroupC        0.7099     0.4701   1.510    0.131    
# GroupD       -0.5204     0.3489  -1.491    0.136    
# ...
# 
# Null deviance: 9.3651e+00  on 3  degrees of freedom
# Residual deviance: 1.1902e-13  on 0  degrees of freedom
# AIC: 25.699
1-pchisq((9.3651 - 1.1902e-13), df=(3-0))
# [1] 0.02481063

El GLM es, si acaso, un poco más importante. Me pregunto si esto es una confusión acerca de cómo interpretar las estadísticas de salida de un modelo con variables categóricas. Cuando se tiene una variable categórica, la mayoría de los software (incluyendo, R, arriba) utiliza la celda de referencia de codificación (ver aquí). El primer nivel de la variable se convierte en la intersección, y el resto de niveles se comparan con la intersección. Por lo tanto, el resultado muestra que B, Cy D no difieren significativamente A, pero eso no significa que no difieren de uno a otro (C y D parecerse a ellos, por ejemplo). Para probar si todo el factor / variable categórica es importante, que usted necesita para adaptarse a un nuevo modelo sin la variable y realizar un modelo anidado de prueba. Puesto que usted tiene sólo una variable, sólo se puede calcular la importancia de todo el modelo directamente usando el nulo y la desviación residual (ver aquí).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X