Estoy desarrollando un modelo de regresión y la mayoría de mis variables son variables 0/1.
¿Deben tratarse estas variables como variables factoriales en el modelo o pueden dejarse simplemente como numéricas 0,1?
Estoy desarrollando un modelo de regresión y la mayoría de mis variables son variables 0/1.
¿Deben tratarse estas variables como variables factoriales en el modelo o pueden dejarse simplemente como numéricas 0,1?
En regresión lineal, si son variables independientes y 1 y 0 son los únicos resultados posibles, entonces cualquiera de las dos formas está bien.
Modelado como binario, pero especificado como si fuera continuo (los datos y la sintaxis son de Stata 12):
. sysuse auto
. reg mpg foreign
Source | SS df MS Number of obs = 74
-------------+------------------------------ F( 1, 72) = 13.18
Model | 378.153515 1 378.153515 Prob > F = 0.0005
Residual | 2065.30594 72 28.6848048 R-squared = 0.1548
-------------+------------------------------ Adj R-squared = 0.1430
Total | 2443.45946 73 33.4720474 Root MSE = 5.3558
------------------------------------------------------------------------------
mpg | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
foreign | 4.945804 1.362162 3.63 0.001 2.230384 7.661225
_cons | 19.82692 .7427186 26.70 0.000 18.34634 21.30751
------------------------------------------------------------------------------
Modelados como factores:
. reg mpg i.foreign
Source | SS df MS Number of obs = 74
-------------+------------------------------ F( 1, 72) = 13.18
Model | 378.153515 1 378.153515 Prob > F = 0.0005
Residual | 2065.30594 72 28.6848048 R-squared = 0.1548
-------------+------------------------------ Adj R-squared = 0.1430
Total | 2443.45946 73 33.4720474 Root MSE = 5.3558
------------------------------------------------------------------------------
mpg | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
1.foreign | 4.945804 1.362162 3.63 0.001 2.230384 7.661225
_cons | 19.82692 .7427186 26.70 0.000 18.34634 21.30751
------------------------------------------------------------------------------
Hay que tener en cuenta que si se modela como una variable continua (aunque hay que tener en cuenta que en realidad es binaria), el grupo de referencia es siempre lo que se codifique como 0. En algunos programas estadísticos, sin embargo, las variables binarias modeladas como factores pueden tener su grupo de referencia cambiado a lo que sea = 1. Los estadísticos ANOVA y F no se verán afectados, pero los coeficientes de regresión pueden cambiar (debido a la reasignación del grupo de referencia).
Para los perplejos, la sintaxis específica aquí es la sintaxis de Stata. El principio subyacente es genérico
if modeled as continuous, the reference group is
Perdón, ¿cómo puede una variable continua (escala, numérica) tener un grupo de referencia ¿En absoluto?
En R, no importa si son factores o variables numéricas. Pero asegúrese de indicar que está haciendo una regresión logística indicando family=binomial
en, por ejemplo, un modelo lineal general o un modelo de efectos mixtos.
Sin indicarlo, la varianza supuesta de la distribución será diferente. En una familia binomial, la varianza (parámetro de dispersión) se toma como 1, a diferencia de la familia gaussiana.
Gracias, me refería a un modelo de regresión lineal (no lo especifiqué), ¿sigue habiendo efectos de varianza?
Los supuestos de varianza son más flexibles con los modelos lineales generales que con los modelos lineales. Casi todos los modelos lineales tienen su correspondiente implementación de modelo lineal general. Por lo tanto, dado que está prediciendo específicamente variables binarias, desea especificar esto y, por lo tanto, debería utilizar GLM frente a LM.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.
1 votos
¿Necesita interceptar el modelo? ¿Es posible un valor intermedio entre 0 y 1? ¿Es 0 < 1 o no importa, son sólo categorías?
1 votos
No importará si son factores o numéricos. Lo máximo que podría cambiar es la categoría de referencia.