9 votos

¿Participación o regresión de una variable categórica?

De vez en cuando veo en la literatura que una variable categórica como el sexo es "parcializada" o "regresada" en el análisis de regresión (de efectos fijos o mixtos). Me preocupan las siguientes cuestiones prácticas relacionadas con esta afirmación:

(1) Normalmente, el método de codificación no se menciona en el documento. Una variable de este tipo debe codificarse con valores cuantitativos, y creo que la forma más sensata debería ser la codificación de los efectos (por ejemplo, hombre = 1, mujer = -1), de forma que se pueda realizar la partición con otros efectos interpretados en la media general de ambos grupos de sexo. Una codificación diferente puede dar una interpretación diferente (y no deseada). Por ejemplo, una codificación ficticia (por ejemplo, hombre = 0, mujer = 1) dejaría otros efectos asociados a los hombres, no a la media general. Incluso centrar esta variable codificada con dummies podría no funcionar bien para su propósito de partición si hay un número desigual de sujetos en los dos grupos. ¿Estoy en lo cierto?

(2) Si se incluye en el modelo el efecto de una variable categórica de este tipo, parece necesario examinar primero sus efectos, que deben discutirse en el contexto por su consecuencia en la interpretación de otros efectos. Lo que me preocupa es que a veces los autores ni siquiera mencionan la importancia del efecto del sexo, y mucho menos el proceso de construcción del modelo. Si el efecto del sexo existe, una pregunta natural de seguimiento es si existen interacciones entre el sexo y otras variables en el modelo. Si no hay efecto del sexo y no existen interacciones, el sexo debería eliminarse del modelo.

(3) Si se considera que el sexo no tiene interés para esos autores, ¿qué sentido tiene incluirlo en el modelo en primer lugar sin comprobar sus efectos? ¿La inclusión de una variable categórica de este tipo (y que cuesta un grado de libertad en el efecto fijo del sexo) aporta algo a su propósito de partición cuando el efecto del sexo existe (mi limitada experiencia dice que esencialmente no)?

4voto

David J. Sokol Puntos 1730

No creo que (1) suponga ninguna diferencia. La idea es parcializar la respuesta y los otros predictores los efectos del Sexo. No importa si se codifica 0, 1 (contrastes de tratamiento) o 1, -1 (contrastes de suma a cero), ya que los modelos representan la misma "cantidad" de información que luego se elimina. Aquí hay un ejemplo en R:

set.seed(1)
dat <- data.frame(Size = c(rnorm(20, 180, sd = 5), 
                           rnorm(20, 170, sd = 5)),
                  Sex = gl(2,20,labels = c("Male","Female")))

options(contrasts = c("contr.treatment", "contr.poly"))
r1 <- resid(m1 <- lm(Size ~ Sex, data = dat))
options(contrasts = c("contr.sum", "contr.poly"))
r2 <- resid(m2 <- lm(Size ~ Sex, data = dat))
options(contrasts = c("contr.treatment", "contr.poly"))

A partir de estos dos modelos, los residuos son los mismos y es esta información la que se tomaría en el modelo posterior (además de lo mismo eliminando el efecto del sexo de las otras covariables):

> all.equal(r1, r2)
[1] TRUE

Resulta que estoy de acuerdo con (2), pero en (3) si el Sexo no es de interés para los investigadores, es posible que aún quieran controlar los efectos del Sexo, por lo que mi modelo nulo sería uno que incluyera el Sexo y probara las alternativas con covariables adicionales más el Sexo. Su punto sobre las interacciones y las pruebas de los efectos de las variables que no interesan es una observación importante y válida.

2voto

Factor Mystic Puntos 12465

Es cierto que la elección del método de codificación influye en la interpretación de los coeficientes del modelo. Sin embargo, según mi experiencia (y me doy cuenta de que esto puede depender de tu campo), la codificación ficticia está tan extendida que la gente no tiene un gran problema con ella.

En este ejemplo, si hombre = 0 y mujer = 1, el intercepto es básicamente la respuesta media de los hombres, y el coeficiente de sexo es el impacto en la respuesta debido a ser mujer (el "efecto femenino"). Las cosas se complican más cuando se trata de variables categóricas con más de dos niveles, pero el esquema de interpretación se extiende de forma natural.

Lo que esto significa en última instancia es que debe tener cuidado de que cualquier conclusión sustantiva que saque del análisis no dependa del método de codificación utilizado.

1voto

Volomike Puntos 372

Parece que no puedo añadir un comentario largo directamente a la respuesta del Dr. Simpson. Siento tener que poner mi respuesta aquí.

Le agradezco mucho su respuesta, Dr. Simpson. Debería aclarar un poco mis argumentos. Lo que me cuesta el asunto de la partición no es una cuestión teórica sino práctica. Supongamos que un modelo de regresión lineal es de la siguiente forma

y = a + b * Sexo + otros efectos fijos + residuos

Estoy totalmente de acuerdo en que, desde la perspectiva teórica, independientemente de cómo cuantifiquemos la variable Sexo, tendríamos los mismos residuos. Incluso si codifico los sujetos con algunos números locos como hombre = 10,7 y mujer = 53,65, seguiría obteniendo los mismos residuos que r1 y r2 en su ejemplo. Sin embargo, lo que importa en esos documentos no son los residuos. En su lugar, la atención se centra en la interpretación del intercepto a y otros efectos fijos en el modelo anterior, y esto puede suponer un problema a la hora de la partición. Teniendo en cuenta este enfoque, la forma de codificar el sexo parece tener una gran consecuencia en la interpretación de todos los demás efectos del modelo anterior. Con una codificación ficticia ( options(contrasts = c("contr.treatment", "contr.poly")) en R), todos los demás efectos, excepto 'b', deben interpretarse como asociados al grupo de sexo con código "0" (varones). Con la codificación de los efectos ( options(contrasts = c("contr.sum", "contr.poly")) en R), todos los demás efectos excepto b son los efectos medios para toda la población, independientemente del sexo.

Utilizando su ejemplo, el modelo se simplifica a

y = a + b * Sexo + residuos.

El problema se puede ver claramente con lo siguiente sobre la estimación del intercepto a :

> summary(m1)

Call: lm(formula = Size ~ Sex, data = dat)

...

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 180.9526     0.9979 181.332  < 2e-16 ***

> summary(m2)

Call: lm(formula = Size ~ Sex, data = dat)

...

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 175.4601     0.7056 248.659  < 2e-16 ***

Finalmente parece que tengo que aceptar que mi argumento original (3) podría no ser válido. Continuando con su ejemplo,

> options(contrasts = c("contr.sum", "contr.poly"))
> m0 <- lm(Size ~ 1, data = dat)
> summary(m0)

Call: lm(formula = Size ~ 1, data = dat)

...

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  175.460      1.122   156.4   <2e-16 ***

Parece que incluir el sexo en el modelo no cambia la estimación del efecto, pero sí aumenta la potencia estadística, ya que se tiene en cuenta más variabilidad en los datos a través del efecto del sexo. Mi anterior ilusión en el argumento (3) puede provenir de un conjunto de datos con un gran tamaño de muestra en el que añadir el Sexo en el modelo no cambiaba mucho la significación de otros efectos.

Sin embargo, en el análisis convencional de tipo ANOVA equilibrado, un factor entre sujetos como el Sexo no tiene consecuencias sobre aquellos efectos no relacionados con el factor debido a la partición ortogonal de las varianzas?

1voto

No obstante, recuerde que el error se reducirá al añadir cualquier factor adicional. Incluso si el género es insignificante en su modelo, puede ser útil en el estudio. Se puede encontrar significación en cualquier factor si el tamaño de la muestra es lo suficientemente grande. Por el contrario, si el tamaño de la muestra no es lo suficientemente grande, es posible que no se pueda probar un efecto significativo. De ahí que haya que construir un buen modelo y analizar la potencia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X