La pregunta sugiere una comparación de tres modelos relacionados. Para que la comparación sea clara, dejemos que $Y$ sea la variable dependiente, y que $X \in \{1,2,3\}$ sea el código comunitario actual, y definir $X_1$ y $X_2$ para ser indicadores de las comunidades 1 y 2, respectivamente. (Esto significa que $X_1=1$ para la comunidad 1 y $X_1=0$ para las comunidades 2 y 3; $X_2=1$ para la comunidad 2 y $X_2=0$ para las comunidades 1 y 3).
El análisis actual puede ser uno de los siguientes: o bien
$$Y = \alpha + \beta X + \varepsilon\quad\text{(first model)}$$
o
$$Y = \alpha + \beta_1 X_1 + \beta_2 X_2 + \varepsilon\quad\text{(second model)}.$$
En ambos casos $\varepsilon$ representa un conjunto de variables aleatorias independientes idénticamente distribuidas con expectativa cero. El segundo modelo es probablemente el que se pretende, pero el primer modelo es el que se ajustará con la codificación que se describe en la pregunta.
El resultado de la regresión OLS es un conjunto de parámetros ajustados (indicados con "sombreros" en sus símbolos) junto con una estimación de la varianza común de los errores. En el primer modelo hay una prueba t para comparar $\hat{\beta}$ a $0$ . En el segundo modelo hay dos Pruebas t: una para comparar $\hat{\beta_1}$ a $0$ y otra para comparar $\hat{\beta_2}$ a $0$ . Dado que la pregunta sólo informa de una prueba t, empecemos por examinar el primer modelo.
Habiendo concluido que $\hat{\beta}$ es significativamente diferente de $0$ podemos hacer una estimación de $Y$ = $\mathbb{E}[\alpha + \beta X + \varepsilon]$ = $\alpha + \beta X$ para cualquier comunidad:
para la comunidad 1, $X=1$ y la estimación es igual a $\alpha+\beta$ ;
para la comunidad 2, $X=2$ y la estimación es igual a $\alpha+2\beta$ y
para la comunidad 3, $X=3$ y la estimación es igual a $\alpha+3\beta$ .
En particular, el primer modelo obliga a que los efectos comunitarios estén en progresión aritmética. Si la codificación de la comunidad pretende ser sólo una forma arbitraria de diferenciar entre comunidades, esta restricción incorporada es igualmente arbitraria y probablemente errónea.
Es instructivo realizar el mismo análisis detallado de las predicciones del segundo modelo:
Para la comunidad 1, donde $X_1=1$ y $X_2=0$ el valor previsto de $Y$ es igual a $\alpha + \beta_1$ . Específicamente,
$$Y(\text{community 1}) = \alpha + \beta_1 + \varepsilon.$$
Para la comunidad 2, donde $X_1=0$ y $X_2=1$ el valor previsto de $Y$ es igual a $\alpha+\beta_2$ . Específicamente,
$$Y(\text{community 2}) = \alpha + \beta_2 + \varepsilon.$$
Para la comunidad 3, donde $X_1=X_2=0$ el valor previsto de $Y$ es igual a $\alpha$ . Específicamente,
$$Y(\text{community 3}) = \alpha + \varepsilon.$$
Los tres parámetros dan efectivamente al segundo modelo plena libertad para estimar los tres valores esperados de $Y$ por separado. Las pruebas t evalúan si (1) $\beta_1=0$ es decir, si existe una diferencia entre las comunidades 1 y 3; y (2) $\beta_2=0$ es decir, si existe una diferencia entre las comunidades 2 y 3. Además, se puede comprobar el "contraste" $\beta_2-\beta_1$ con una prueba t para ver si las comunidades 2 y 1 difieren: esto funciona porque su diferencia es $(\alpha + \beta_2) - (\alpha + \beta_1)$ = $\beta_2-\beta_1$ .
Ahora podemos evaluar el efecto de tres regresiones distintas. Estas serían
$$Y(\text{community 1}) = \alpha_1 + \varepsilon_1,$$
$$Y(\text{community 2}) = \alpha_2 + \varepsilon_2,$$
$$Y(\text{community 3}) = \alpha_3 + \varepsilon_3.$$
Comparando esto con el segundo modelo, vemos que $\alpha_1$ debe estar de acuerdo con $\alpha+\beta_1$ , $\alpha_2$ debe estar de acuerdo con $\alpha+\beta_2$ y $\alpha_3$ debe estar de acuerdo con $\alpha$ . Por lo tanto, en términos de flexibilidad de los parámetros de ajuste, ambos modelos son igualmente buenos. Sin embargo, los supuestos de este modelo sobre los términos de error son más débiles. Todos los $\varepsilon_1$ deben ser independientes e idénticamente distribuidos (iid); todos los $\varepsilon_2$ debe ser iid, y todos los $\varepsilon_3$ debe ser iid, pero no se asume nada sobre las relaciones estadísticas entre las distintas regresiones. Por lo tanto, las regresiones separadas permiten una flexibilidad adicional:
-
Lo más importante es que la distribución de la $\varepsilon_1$ puede diferir de la del $\varepsilon_2$ que puede diferir de la del $\varepsilon_3$ .
-
En algunas situaciones, el $\varepsilon_i$ puede estar correlacionado con el $\varepsilon_j$ . Ninguno de estos modelos se ocupa explícitamente de esto, pero el tercer modelo (regresiones separadas) al menos no se verá afectado negativamente por ello.
Esta flexibilidad adicional significa que los resultados de la prueba t para los parámetros probablemente diferirán entre el segundo y el tercer modelo. (Sin embargo, no debería dar lugar a estimaciones diferentes de los parámetros).
Para ver si se necesitan regresiones separadas haz lo siguiente:
Ajustar el segundo modelo. Represente los residuos frente a la comunidad, por ejemplo, como un conjunto de gráficos de caja paralelos o un trío de histogramas o incluso como tres gráficos de probabilidad. Busque indicios de formas de distribución diferentes y, sobre todo, de varianzas considerablemente diferentes. Si no hay indicios de ello, el segundo modelo debería ser correcto. Si está presente, se justifican regresiones separadas.
Cuando los modelos son multivariantes -es decir, incluyen otros factores- es posible realizar un análisis similar, con conclusiones parecidas (pero más complicadas). En general, Realizar regresiones separadas equivale a incluir todas las posibles interacciones bidireccionales con la variable de la comunidad (codificadas como en el segundo modelo, no en el primero) y permitir diferentes distribuciones de error para cada comunidad.