4 votos

¿El principio de marginalidad se aplica a las interacciones de las variables categóricas?

Supongamos que tenemos el factor X con los niveles de n, el factor M con los niveles de p, entonces $\hat{Y} = X+M+X\cdot M$ $\hat{Y} = X \cdot M$ nos dará dos parametrizaciones del mismo modelo, ya que sólo se puede conseguir a $np-1$ las estimaciones de los coeficientes. Qué, si algo, se obtiene mediante la inclusión de los principales efectos directamente en el modelo?

Considere el siguiente ejemplo:

library(car)
data("Chile")

El modelo completo:

Call:
lm(formula = log(income) ~ sex * education, data = Chile)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.9759 -0.5220  0.1081  0.4281  2.6984 

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)       9.35894    0.03608 259.382  < 2e-16 ***
sexM              0.14874    0.05381   2.764  0.00575 ** 
educationPS       1.44101    0.07282  19.789  < 2e-16 ***
educationS        0.67606    0.05220  12.953  < 2e-16 ***
sexM:educationPS -0.17359    0.09966  -1.742  0.08166 .  
sexM:educationS  -0.04592    0.07584  -0.605  0.54491    
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1 

Residual standard error: 0.8764 on 2587 degrees of freedom
  (107 observations deleted due to missingness)
Multiple R-squared: 0.2417, Adjusted R-squared: 0.2403 
F-statistic: 164.9 on 5 and 2587 DF,  p-value: < 2.2e-16

La interacción sólo modelo:

Call:
lm(formula = log(income) ~ sex:education, data = Chile)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.9759 -0.5220  0.1081  0.4281  2.6984 

Coefficients: (1 not defined because of singularities)
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)      10.13783    0.03786 267.803   <2e-16 ***
sexF:educationP  -0.77889    0.05230 -14.894   <2e-16 ***
sexM:educationP  -0.63015    0.05501 -11.454   <2e-16 ***
sexF:educationPS  0.66212    0.07371   8.982   <2e-16 ***
sexM:educationPS  0.63727    0.06685   9.533   <2e-16 ***
sexF:educationS  -0.10283    0.05344  -1.924   0.0544 .  
sexM:educationS        NA         NA      NA       NA    
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1 

Residual standard error: 0.8764 on 2587 degrees of freedom
  (107 observations deleted due to missingness)
Multiple R-squared: 0.2417, Adjusted R-squared: 0.2403 
F-statistic: 164.9 on 5 and 2587 DF,  p-value: < 2.2e-16 

Los resultados implican que estos son el mismo modelo con diferentes parametrización. De hecho, ningún coeficiente en el modelo es una combinación lineal de las estimaciones del modelo de otros.

3voto

jasonmray Puntos 1303

En el modelo completo no se $n-1$ coeficientes para el efecto principal de $X$, $p-1$ para el efecto principal de $M$, & $np -n - p +1$ para la interacción; dando un total de, como diría usted de $np-1$. En el modelo con interacción sólo, sólo hay $np -n - p +1$ coeficientes; por lo que algunas combinaciones de los niveles de $X$ & $M$ compartir el mismo coeficiente, que según el esquema de codificación. Así que el principio de la marginalidad se aplica; de hecho, es menos habitual que el incumplimiento es justificado por una interpretación significativa.

[Aquí están las combinaciones de las variables ficticias utilizadas en el modelo completo, la primera:

(Intercept) sexM educationPS educationS sexM:educationPS sexM:educationS 1 0 0 0 0 0 1 0 0 1 0 0 1 0 1 0 0 0 1 1 0 0 0 0 1 1 0 1 0 1 1 1 1 0 1 0

Un verdadero interacciones modelo sólo podría utilizar sólo la primera y dos últimas columnas como predictores, así agrupar juntos todas las mujeres con varones que tienen sólo educación primaria ('P'). La adaptación de @Pedro ejemplo, usted estaría diciendo que para las mujeres, el nivel de educación no tuvo ningún efecto sobre la renta; y que para la gente con sólo educación primaria, el sexo no tuvo ningún efecto. No estoy seguro de que hay mucho más que decir acerca de la marginalidad principio distinto que te gustaría tal restricción para ser deliberada de la modelización de la decisión basada en los conocimientos sustantivos en lugar de una consecuencia accidental de la codificación.]

2voto

Zizzencs Puntos 1358

@scortchi te dio una buena respuesta, pero me pareció un ejemplo concreto podría ser útil, si no para usted, a continuación, para los demás que van a ver esto.

Suponga que la variable dependiente es log(ingreso) y dos de sus variables independientes categóricas son el sexo (masculino, femenino, otros) y la raza (Blancos, Negros, Asiáticos, Nativos Americanos, Hawai/islas del Pacífico). Digamos que la referencia categorías masculina y Blanca.

Con sólo la interacción usted está asumiendo que, para la gente Blanca, el sexo no tiene ningún efecto y, para los hombres, la raza no tiene ningún efecto.

Puede haber situaciones en que esta es una buena modelo, pero no puedo pensar en ninguna, de improviso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X