Tiene razón en que esos $p$ -Los valores sólo le indican si cada nivel es significativamente diferente de la media del nivel de referencia. Por lo tanto, sólo informan sobre la por parejas diferencias entre los niveles. Probar si el predictor categórico, en su conjunto, es significativo equivale a probar si hay alguna heterogeneidad en las medias de los niveles del predictor. Cuando no hay otros predictores en el modelo, se trata de una prueba clásica ANOVA problema.
Cuando hay otros predictores en el modelo, tiene dos opciones para comprobar la significación de un predictor categórico:
(1) El prueba de razón de verosimilitud: Suponga que tiene un resultado $Y_i$ , predictores cuantitativos $X_{i1}, ..., X_{ip}$ y el predictor categórico $C_i$ con $k$ niveles. El modelo sin el predictor categórico es
$$ Y_i = \beta_0 + \beta_1 X_{i1} + ... + \beta_p X_{ip} + \varepsilon_i $$
En R
se puede ajustar este modelo con el lm()
y extraer la probabilidad del registro con el comando logLik
de mando. Llama a esto log-likelihood $L_0$ . A continuación, puede ajustar el modelo con el predictor categórico:
$$ Y_i = \beta_0 + \beta_1 X_{i1} + ... + \beta_p X_{ip} + \sum_{j=1}^{k-1} \alpha_j B_j + \varepsilon_i $$
donde $B_j$ es una variable ficticia que es $1$ si $D_i = j$ y $0$ de lo contrario. El $k$ es el nivel de referencia, por lo que sólo hay $k-1$ términos en la suma. R
hará automáticamente esta codificación ficticia por usted si pasa la variable categórica a lm()
. Se puede ajustar este modelo de forma similar y extraer la log-verosimilitud como en el caso anterior. Llamemos a esta log-verosimilitud $L_1$ . Entonces, bajo la hipótesis nula de que $D_i$ no tiene ningún efecto,
$$ \lambda = 2 \left( L_1 - L_0 \right ) $$
tiene un $\chi^2$ distribución con $k-1$ grados de libertad. Así, se puede calcular el $p$ -valor utilizando 1-pchisq(2*(L1-L0),df=k-1)
en R
para comprobar la significación.
(2) $F$ -prueba: Sin entrar en los detalles (que son similares a los de la TRL, salvo que se utilizan sumas de cuadrados en lugar de logaritmos de probabilidad), explicaré cómo hacerlo en R
. Si se ajusta el modelo "completo" (es decir, el modelo con todos los predictores, incluido el categórico) en R
utilizando el lm()
(llame a este g1
) y el modelo sin el predictor categórico (llamado g0
), entonces el anova(g1,g0)
también pondrá a prueba esta hipótesis para usted.
Nota: Los dos enfoques que he mencionado aquí requieren la normalidad de los errores. Además, la prueba de razón de verosimilitud es una herramienta muy general que se utiliza para las comparaciones anidadas, razón por la que la menciono aquí (y por la que se me ocurre primero), aunque la $F$ -es más familiar en la comparación de modelos de regresión lineal.
1 votos
@Luna, ¿por qué está mal? Parece que has utilizado
x3
para generar ely
s, por lo que debe incluirse en el modelo y el $p$ -valor está de acuerdo con esa conclusión.0 votos
@Seth - tienes razón. Sólo estaba dando un ejemplo de juguete de la utilización de anova en general en la comparación de modelos. Así que no está relacionado con mi pregunta original.
0 votos
@Macro - tienes razón. Ahora veo el punto. Gracias.
0 votos
La función 'Anova' del paquete 'car' de R ( pdf ) le permite comprobar la significación global de una variable categórica. Funciona con muchos paquetes y tipos de regresión diferentes.