Quiero saber cómo puedo manejar las variables categóricas en la regresión logística, la regresión lineal y la SVM. La variable categórica tiene cuatro categorías 1,2,3 y 4. Sin embargo, no significa que 4 sea como 4 veces 1. Es sólo un nombre. ¿Por qué la gente dice que para SVM necesito usar cuatro variables binarias ficticias que codifican la categoría, pero para la regresión lineal y logística no necesito hacer nada? ¿Por qué es que cualquier idea.
Respuesta
¿Demasiados anuncios?Debería utilizar dummies para todos estos enfoques exactamente por la razón que ha especificado: el valor numérico con el que se codifican las categorías no captura la similitud (por ejemplo, 4 no está más cerca de 3 que de 1).
Si tiene un modelo con componentes lineales de la forma $\beta_i x_i$ (los tres métodos que has mencionado lo hacen, incluso el kernel SVM), entonces al no usar variables ficticias estás afirmando por diseño que 4 está más cerca de 3 que de 1. Supón que tienes 3 instancias con valores 1, 3 y 4, entonces su contribución a (partes de) la predicción es $$\begin{align} x_i = 1 \rightarrow\ &\beta_i, \\ x_i = 3 \rightarrow\ &3\beta_i, \\ x_i = 4 \rightarrow\ &4\beta_i, \end{align}$$ y, por tanto, la contribución de $x_i=4$ se parece más a $x_i=3$ que a $x_i=1$ aunque no lo sean. Con los maniquíes se evita completamente este problema.
Las técnicas como los árboles de decisión no requieren dicha codificación, porque generan divisiones en lugar de utilizar los valores numéricos directamente (las divisiones se situarán en algún lugar entre las categorías y, por lo tanto, las separarán efectivamente).