Si aplicamos regresión lineal a datos que tienen una variable dependiente BINARIA(0,1), se viola la suposición muy importante de "varianza constante" de la variable dependiente a través de variables independientes. ¿Puede alguien explicar cómo?
Respuesta
¿Demasiados anuncios?Puedes intentar visualizar la idea haciendo un gráfico residual de la regresión mencionada:
La suposición de varianza constante es que la variable dependiente esperada condicionada a todas las variables independientes es constante. Si, muy aproximadamente, dividimos los valores ajustados en segmentos y calculamos la varianza residual dentro de cada uno, deberían ser aproximadamente similares. Desde el gráfico anterior, se puede ver que no siempre es cierto para un resultado binario (las fuentes rojas indican la varianza dentro de cada segmento.)
No siempre porque a veces la situación no es tan mala, especialmente si la variable independiente no es muy predictiva (es decir, hay una buena cantidad de superposición en los grupos resultado = 1 y resultado = 0.) Sin embargo, la suposición de normalidad seguirá siendo violada.