42 votos

ANOVA de binomio de datos

Yo soy el análisis de un conjunto de datos experimentales establecidas. Los datos se compone de un par de vectores del tipo de tratamiento y un binomio resultado:

Treatment    Outcome
A            1
B            0
C            0
D            1
A            0
...

En el resultado de la columna, 1 denota un éxito y 0 denota un fracaso. Me gustaría averiguar si el tratamiento varía significativamente el resultado. Hay 4 diferentes tratamientos con cada experimento se repite un gran número de veces (2000, para cada tratamiento).

Mi pregunta es, puedo analizar el resultado binario con ANOVA? O debo ser mediante una prueba de chi-cuadrado para comprobar el binomio de datos? Parece que la chi-cuadrado se supone que la proporción sería ser dividido en partes iguales, lo cual no es el caso. Otra idea sería la de resumir los datos mediante la proporción de éxitos frente a fallos para cada tratamiento y, a continuación, utilizar una proporción de la prueba.

Tengo curiosidad por escuchar sus recomendaciones para las pruebas que tengan sentido para este tipo de binomio de éxito/fracaso de los experimentos.

22voto

Psycho Bob Puntos 661

No para de ANOVA, que asume una distribución normal variable de resultado (entre otras cosas). Hay de la "vieja escuela" transformaciones a considerar, pero yo prefiero la regresión logística (equivalente a un chi cuadrado cuando sólo hay una variable independiente, como en tu caso). La ventaja de la utilización de la regresión logística a través de una prueba de la chi cuadrado es que usted puede fácilmente hacer uso de un contraste lineal para comparar los niveles específicos de tratamiento si usted encuentra un resultado significativo para el global de la prueba (tipo 3). Por ejemplo a frente a B, B frente a C, etc.

Actualización Añadido para mayor claridad:

Tomando los datos en la mano (el post doc conjunto de datos de Allison) y el uso de la variable cits de la siguiente manera, este fue mi punto:

postdocData$citsBin <- ifelse(postdocData$cits>2, 3, postdocData$cits)
postdocData$citsBin <- as.factor(postdocData$citsBin)
ordered(postdocData$citsBin, levels=c("0", "1", "2", "3"))
contrasts(postdocData$citsBin) <- contr.treatment(4, base=4) # set 4th level as reference
contrasts(postdocData$citsBin)
     #   1 2 3
     # 0 1 0 0
     # 1 0 1 0
     # 2 0 0 1
     # 3 0 0 0

# fit the univariate logistic regression model
model.1 <- glm(pdoc~citsBin, data=postdocData, family=binomial(link="logit"))

library(car) # John Fox package
car::Anova(model.1, test="LR", type="III") # type 3 analysis (SAS verbiage)
     # Response: pdoc
     #          LR Chisq Df Pr(>Chisq)
     # citsBin   1.7977  3     0.6154

chisq.test(table(postdocData$citsBin, postdocData$pdoc)) 
     # X-squared = 1.7957, df = 3, p-value = 0.6159

# then can test differences in levels, such as: contrast cits=0 minus cits=1 = 0
# Ho: Beta_1 - Beta_2 = 0
cVec <- c(0,1,-1,0)
car::linearHypothesis(model.1, cVec, verbose=TRUE) 

9voto

kjetil b halvorsen Puntos 7012

Tal vez algunos lo consideran anticuado, pero si sólo se desea probar la hipótesis nula de que todos los grupos tienen la misma probabilidad de éxito, entonces usted puede definir $X_k$ como el número de éxitos en grupo $k$, $n_k$ como el número de ensayos en el grupo $k$, la probabilidad estimada en el grupo $k$$\hat{p}_k=X_k/n_k$, y, a continuación, utilizar la varianza de estabilización de transformación para el binomio, que es $$ g(p) = \arcsin \sqrt(p) $$ Este enfoque fue (a veces) lo suficientemente bueno para Fisher, por lo que puede ser útil también hoy!

3voto

merriam Puntos 67

Me gustaría difieren de lo que usted piensa acerca de Chi-Sq prueba. Esto es aplicable incluso si los datos no es binomial. Se basa en la normalidad asintótica de la mle (en la mayoría de los casos).

Me gustaría hacer una regresión logística como este:

$$\log \frac {\hat{\pi}} {1-\hat{\pi}} = \beta_0 + \beta_1 \times D_1 + \beta_2 \times D_2$$

donde

$D_1$ $D_2$ son variables ficticias. $D_1 = D_2 = 0 \implies A, D_1 = 1, D_2 = 0 \implies B, D_1 = 1 D_2 = 1 \implies C$

$$H_o : \beta_0 = \beta_1 = \beta_2 = 0$$

Es el ANOVA equivalentes si existe una relación o no.

$$H_o : \beta_0 = 0$$

Es la prueba que se tiene Un poco de efecto.

$$H_o : \beta_1 - \beta_0 = 0$$

Es la prueba B tiene algún efecto.

$$H_o : \beta_2 - (\frac {\beta_0+\beta_1} {2}) = 0$$

Es la prueba C tiene algún efecto.

Ahora usted puede hacer contrastes encontrar nuestra lo que te interesa. Todavía es un chi-sq prueba, pero con diferentes grados de libertad (3, 1, 1, y 1, respectivamente)

-1voto

Nasko Puntos 43

Creo que tienes razón en que ANOVA no debe ser usada para analizar el binomio de la variable dependiente. Muchas personas usan esto para la comparación de las medias de la variable respuesta binaria (0 1), pero no debe ser utilizado porque esto viola gravemente la Normalidad y la Igualdad de la varianza de la asunción. Las pruebas de Chi Cuadrado o la regresión Logística son los mejores para estas situaciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X