3 votos

Cómo analizar datos binarios sobredispersos

En mi investigación substantiva, a menudo uso puntuaciones dicotómicas (1 correcto, 0 incorrecto) para mis pruebas (pruebas con $15~si/no$ items). Mi objetivo es comparar la proporción de respuestas correctas a todos los items en dos grupos (por ej., $n1 = n2 = 25$).

La suma de las puntuaciones de los $15$ items de cada persona en cada prueba seguirá una distribución binomial. Sin embargo, queremos comparar $25$ de esos participantes del grupo1 con $25$ participantes independientes del grupo2.

¿Cuál sería un plan razonable para hacer esa comparación (preferiblemente a través de estimación bayesiana)?

Nota: Creo que estos datos pueden estar 'sobre-dispersos' debido a que la probabilidad de éxito ($p$) puede no ser común en cada grupo.

Estos son mis datos que consisten en la suma de $15$ puntuaciones de $si/no$ items para cada persona en el código R:

grupo1 = c(7, 11, 10, 9, 7, 11, 7, 7, 9, 9,12,11,11, 9,10, 8,10, 9, 5,10, 8, 7,11, 9, 12)

grupo2 = c(6, 7, 3, 7, 10, 7, 7, 8, 7, 6, 9, 8, 9, 5, 9, 7, 9, 8, 9, 8, 8,  9, 4, 7, 9)

3voto

Ayman Puntos 3980

Si se analiza los datos utilizando un modelo lineal generalizado ordinario, esto es lo que se obtiene:

> y <- c(group1, group2) 
> group <- factor(rep(1:2, each=25))
> summary(glm(cbind(y, 15 - y) ~ group, binomial))

Call:
glm(formula = cbind(y, 15 - y) ~ group, family = binomial)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-2.37472  -0.51306  -0.08459   0.80810   1.57631  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)   0.4501     0.1059   4.250 2.14e-05 ***
group2       -0.4661     0.1479  -3.151  0.00163 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 51.401  on 49  degrees of freedom
Residual deviance: 41.403  on 48  degrees of freedom
AIC: 200.93

Number of Fisher Scoring iterations: 3

Como se puede ver, la devianza de 41.4 es más pequeña que su valor esperado de 48 bajo $H_0$, por lo que, si acaso, esto indica una ligera tendencia para que estos datos estén subdispersos.

Dicha subdispersión sería esperada si hay poca heterogeneidad entre los examinados dentro de cada grupo (digamos, ninguna heterogeneidad para efectos del siguiente argumento) pero en cambio heterogeneidad entre las preguntas. La varianza de la puntuación sería entonces $$ \operatorname{Var}(\sum_{j=1}^{15} I_j)=\sum_{j=1}^{15}p_j(1-p_j) \le 15\bar p(1-\bar p), $$ donde $\bar p=\frac1{15}\sum_{j=1}^{15}p_j$ (la probabilidad promedio de respuesta correcta en todas las preguntas), es decir, menor de lo esperado basado en el modelo binomial. Esto asume que todos los examinados reciben el mismo conjunto de preguntas.

También se destaca la diferencia significativa entre los grupos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X