El problema que tiene (es decir, "singularidades") puede ser pensado como una instancia de la multicolinealidad. La multicolinealidad es a menudo definido como:
Una o más variables predictoras son una combinación lineal de otras variables predictoras.
Este es, de hecho, una definición estricta; es perfecta multicolinealidad, y usted fácilmente puede tener un problema con la multicolinealidad sin ninguna de sus variables perfecta combinación lineal de los otros. Por otra parte, perfecta multicolinealidad rara vez se produce. Sin embargo, se han tropezado a través de un caso donde puede ocurrir. Vamos a ver cómo podemos perfectamente predecir medium quality
a partir de nuestro conocimiento de las otras dos categorías (vamos a hacerlo con un modelo de regresión donde medium quality
es $Y$, e bad quality
& high quality
son $X_1$ & $X_2$, respectivamente):
$$
Y = \beta_0 + \beta_1X_1 + \beta_2X_2
$$
Nota que no es un término de error, $\varepsilon$, especifica, ya que podemos predecir perfectamente. Para ello, hemos establecido $\beta_0 = 1$, $\beta_1 = -1$, y $\beta_2 = -1$. Ahora, cuando usted tiene bad quality
,, a continuación,$X_1=1$, lo que cancela $\beta_0$ ($1\; + \;-1\!\times\! 1$), y $X_2=0$, por lo que el plazo se cancela fuera así ($-1\times 0$). Por lo tanto, nos quedamos con un valor de predicción de $0$ $Y$ (medium quality
), que es exactamente correcto. Yo se lo dejo a usted para trabajar las otras posibilidades (siempre funciona, en su caso).
Entonces, ¿qué debe hacer? Cuando se representa a una variable categórica, por lo general, el uso de la celda de referencia de codificación (a menudo llamado " el maniquí de codificación). Para ello, se escoge un nivel de nuestra variable categórica como el nivel de referencia; que el nivel de no conseguir su propio código ficticio, sino que simplemente es indicado por tener todos los $0$'s en las maquetas de los códigos para todos los otros niveles. Los otros niveles de la variable categórica están representados por ficticia de los códigos de la misma como ya lo ha hecho. (Para más información sobre esto, puedes ver mi respuesta aquí: Regresión basado por ejemplo en los días de la semana.) Si usted está usando R
, se puede utilizar un factor
y R
va a hacer todo esto para usted-será realizado correctamente, y es mucho más conveniente-no obstante, vale la pena comprender que esto es lo que está pasando detrás de las escenas".