8 votos

La evaluación de la multicolinealidad de los dicotómica de las variables predictoras

Estoy trabajando en un proyecto donde se observa el comportamiento en una tarea (por ejemplo. tiempo de respuesta) y el modelo de este comportamiento como una función de varias manipulados experimentalmente las variables, así como de varios variable observada (participante de sexo, participante IQ, las respuestas en un cuestionario de seguimiento). Yo no tengo preocupaciones acerca de la multicolinealidad entre las variables experimentales porque eran específicamente manipulado para ser independiente, pero me preocupa que las variables observadas. Sin embargo, estoy seguro de cómo evaluar la independencia entre las variables observadas, en parte porque me parecen obtener resultados algo diferentes, dependiendo de cómo puedo configurar el assessent, y también porque no estoy muy familiarizado con la correlación en el contexto en el que una o ambas variables son dicotómicas.

Por ejemplo, aquí hay dos enfoques diferentes para determinar si el sexo es independiente de la CI. Yo no soy un fan de la hipótesis nula pruebas de significación, por lo que en ambos enfoques voy a construir dos modelos, uno con una relación y una sin, a continuación, calcular y AIC-corregido registro de razón de verosimilitud:

m1 = lm(IQ ~ 1)
m2 = lm(IQ ~ sex)
LLR1 = AIC(m1)-AIC(m2)

m3 = glm(sex~1,family='binomial')
m4 = glm(sex~IQ,family='binomial')
LLR2 = AIC(m3)-AIC(m4)

Sin embargo, estos enfoques producen algo diferentes respuestas; LLR1 es de alrededor de 7, lo que sugiere una fuerte evidencia en favor de una relación, mientras que LLR2 es de alrededor de 0.3, lo que sugiere una muy débil evidencia en favor de una relación.

Además, si intento para evaluar la independencia entre el sexo y la otra dicotómica de la variable observada, "yn", el resultado de la LLR igualmente depende de si puedo configurar los modelos para predecir el sexo de yn, o para predecir yn de sexo.

Cualquier sugerencia sobre el por qué de estas diferencias están surgiendo y cómo la mayoría de proceder razonablemente?

3voto

patfla Puntos 1

Creo que usted está tratando de interpretar P(A|B) y P(B|a) como si ellos deben ser la misma cosa. No hay ninguna razón para que ellos sean iguales, debido a que el producto de la regla:

$$P(AB)=P(A|B)P(B)=P(B|A)P(A)$$

a menos $P(B)=P(A)$ $P(A|B) \neq P(B|A)$ en general. Esto explica la diferencia en el "yn" caso. A menos que usted tenga una "equilibrada" de la tabla (fila de totales iguales a los totales de la columna), las probabilidades condicionales (fila y columna) no será igual.

Una prueba para "lógico/independencia estadística" (pero no causal de la independencia) entre las variables categóricas pueden ser dada como:

$$T=\sum_{ij} O_{ij} log\Big(\frac{O_{ij}}{E_{ij}}\Big)$$

Donde $ij$ los índices de las celdas de la tabla (en tu ejemplo, $ij=11,12,21,22$). $O_{ij}$ es el valor observado en la tabla, y $E_{ij}$ es lo que se "espera" en virtud de la independencia, que es simplemente el producto de los marginales $$E_{ij}=O_{\bullet \bullet}\frac{O_{i \bullet}}{O_{\bullet \bullet}}\frac{O_{\bullet j}}{O_{\bullet \bullet}} =\frac{O_{i \bullet}O_{\bullet j}}{O_{\bullet \bullet}}$$

Donde un "$\bullet$" indica que suma más de ese índice. Usted puede demostrar que si usted tenía antes de log-odds valor para la independencia de $L_{I}$, entonces la parte posterior de la log-odds es $L_{I}-T$. La hipótesis alternativa es $E_{ij}=O_{ij}$ (es decir, no hay simplificación, no la independencia), para que $T=0$. Por lo tanto T dice "¿cómo enérgicamente" los datos apoyan la no-independencia, dentro de la clase de distribuciones multinomiales. La cosa buena acerca de esta prueba es que funciona para todas las $E_{ij}>0$, así que usted no tiene que preocuparse acerca de una "escasa" de la tabla. Esta prueba le dará resultados razonables.

Para las regresiones, esto indica que el promedio de IQ de valor es la diferencia entre los dos valores de sexo, aunque no sé la escala de la AIC diferencia (esto es "grande"?).

No estoy seguro de cómo apropiarse de la AIC es un binomio GLM. Puede ser una mejor idea de buscar en el análisis de VARIANZA y la desviación de las tablas para la PELÍCULA y GLM respectivamente.

También, se han representado los datos? siempre graficar los datos!!! este va a ser capaz de decirle cosas que la prueba no. Cómo hacer diferentes IQs mirada cuando se trazan por sexo? cómo hacer diferentes sexos mirada cuando se trazan por el coeficiente intelectual?

3voto

simmosn Puntos 304

¿Por qué te preocupa multicolinearity? La única razón por la que necesitamos esta hipótesis en la regresión para garantizar que tengamos un único estimaciones. Multicolinearity sólo importa para la estimación cuando es perfecto---cuando una variable es una exacta combinación lineal de los otros.

Si su experimentalmente manipular las variables fueron asignados al azar, a continuación, sus correlaciones con la observada predictores así como factores no observados debe ser (aproximadamente) 0; es una suposición, de que le ayuda a obtener estimaciones imparciales.

Dicho esto, no perfecto multicolinearity puede hacer que su estándar de los errores más grandes, pero sólo en aquellas variables que la experiencia de la multicolinearity problema. En su contexto, los errores estándar de los coeficientes en sus variables experimentales no deben verse afectados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X