5 votos

¿Cómo codificar variables predictoras binarias (0/1) en regresión? Numérico frente a factor

Estoy desarrollando un modelo de regresión y la mayoría de mis variables son variables 0/1.

¿Deben tratarse estas variables como variables factoriales en el modelo o pueden dejarse simplemente como numéricas 0,1?

1 votos

¿Necesita interceptar el modelo? ¿Es posible un valor intermedio entre 0 y 1? ¿Es 0 < 1 o no importa, son sólo categorías?

1 votos

No importará si son factores o numéricos. Lo máximo que podría cambiar es la categoría de referencia.

8voto

user2735206 Puntos 51

En regresión lineal, si son variables independientes y 1 y 0 son los únicos resultados posibles, entonces cualquiera de las dos formas está bien.

Modelado como binario, pero especificado como si fuera continuo (los datos y la sintaxis son de Stata 12):

. sysuse auto
. reg mpg foreign

      Source |       SS       df       MS              Number of obs =      74
-------------+------------------------------           F(  1,    72) =   13.18
       Model |  378.153515     1  378.153515           Prob > F      =  0.0005
    Residual |  2065.30594    72  28.6848048           R-squared     =  0.1548
-------------+------------------------------           Adj R-squared =  0.1430
       Total |  2443.45946    73  33.4720474           Root MSE      =  5.3558

------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
     foreign |   4.945804   1.362162     3.63   0.001     2.230384    7.661225
       _cons |   19.82692   .7427186    26.70   0.000     18.34634    21.30751
------------------------------------------------------------------------------

Modelados como factores:

. reg mpg i.foreign

      Source |       SS       df       MS              Number of obs =      74
-------------+------------------------------           F(  1,    72) =   13.18
       Model |  378.153515     1  378.153515           Prob > F      =  0.0005
    Residual |  2065.30594    72  28.6848048           R-squared     =  0.1548
-------------+------------------------------           Adj R-squared =  0.1430
       Total |  2443.45946    73  33.4720474           Root MSE      =  5.3558

------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
   1.foreign |   4.945804   1.362162     3.63   0.001     2.230384    7.661225
       _cons |   19.82692   .7427186    26.70   0.000     18.34634    21.30751
------------------------------------------------------------------------------

Hay que tener en cuenta que si se modela como una variable continua (aunque hay que tener en cuenta que en realidad es binaria), el grupo de referencia es siempre lo que se codifique como 0. En algunos programas estadísticos, sin embargo, las variables binarias modeladas como factores pueden tener su grupo de referencia cambiado a lo que sea = 1. Los estadísticos ANOVA y F no se verán afectados, pero los coeficientes de regresión pueden cambiar (debido a la reasignación del grupo de referencia).

1 votos

Para los perplejos, la sintaxis específica aquí es la sintaxis de Stata. El principio subyacente es genérico

0 votos

Gracias @Nick, perdón por el descuido. He editado la respuesta.

0 votos

if modeled as continuous, the reference group is Perdón, ¿cómo puede una variable continua (escala, numérica) tener un grupo de referencia ¿En absoluto?

1voto

Questioner Puntos 747

En R, no importa si son factores o variables numéricas. Pero asegúrese de indicar que está haciendo una regresión logística indicando family=binomial en, por ejemplo, un modelo lineal general o un modelo de efectos mixtos.

Sin indicarlo, la varianza supuesta de la distribución será diferente. En una familia binomial, la varianza (parámetro de dispersión) se toma como 1, a diferencia de la familia gaussiana.

0 votos

Gracias, me refería a un modelo de regresión lineal (no lo especifiqué), ¿sigue habiendo efectos de varianza?

0 votos

Los supuestos de varianza son más flexibles con los modelos lineales generales que con los modelos lineales. Casi todos los modelos lineales tienen su correspondiente implementación de modelo lineal general. Por lo tanto, dado que está prediciendo específicamente variables binarias, desea especificar esto y, por lo tanto, debería utilizar GLM frente a LM.

0 votos

Lo siento, no lo especifiqué, pero mi variable objetivo no es binaria, sino continua (coste de modelización), y la mayoría de mis variables independientes son binarias.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X