Acabo de darme cuenta de que siempre he trabajado problemas de regresión en los que las variables independientes eran siempre numéricas. ¿Puedo utilizar la regresión lineal en el caso de que todas las variables independientes sean categóricas?
Respuesta
¿Demasiados anuncios?Sólo un poco de semántica y para que quede claro:
- variable dependiente == resultado == " $y$ "en fórmulas de regresión como $y = β_0 + β_1x_1 + β_2x_2 + ... + β_kx_k$
- variable independiente == predictor == uno de " $x_k$ "en fórmulas de como $y = β_0 + β_1x_1 + β_2x_2 + ... + β_kx_k$
Así que en la mayoría de las situaciones el tipo de regresión depende del tipo de dependiente, resultado o " $y$ " variable . Por ejemplo, la regresión lineal se utiliza cuando la variable dependiente es continua, la regresión logística cuando la dependiente es categórica con 2 categorías y la regresión multinomi(n)al cuando la dependiente es categórica con más de 2 categorías. Los predictores pueden ser cualquier cosa (nominales u ordinales categóricos, o continuos, o una mezcla) .
(El siguiente comentario puede ser redundante para usted, pero lo añado de todos modos)
Sin embargo, tenga en cuenta que la mayoría de los programas informáticos requieren que los predictores categóricos se recodifiquen en un sistema numérico binario . Esto sólo significa codificar el sexo a 0 para las mujeres y a 1 para los hombres o viceversa. Para variables categóricas con más de 2 niveles, tendrá que recodificarlas en $L-1$ variables ficticias donde $L$ es el número de niveles y estas variables ficticias contienen un 0 o un 1 cuando se encuentran en la categoría correspondiente. De este modo, cada individuo (muestra) debe representarse con un 1 para la variable ficticia de la que forma parte y un 0 para las demás, o con un 0 para todas las variables ficticias cuando forma parte del grupo de referencia.