15 votos

Cualquiera de los términos cuadráticos o de interacción es significativo de forma aislada, pero ninguno de los dos juntos

Como parte de una tarea, tuve que ajustar un modelo con dos variables predictoras. A continuación, tuve que dibujar un gráfico de los residuos de los modelos frente a uno de los predictores incluidos y realizar cambios en función de ello. El gráfico mostraba una tendencia curvilínea, por lo que incluí un término cuadrático para ese predictor. El nuevo modelo mostró que el término cuadrático era significativo. Todo bien hasta ahora.

Sin embargo, los datos sugieren que una interacción también tiene sentido. La adición de un término de interacción al modelo original también "fijó" la tendencia curvilínea y también fue significativa cuando se añadió al modelo (sin el término cuadrático). El problema es que, cuando se añaden al modelo tanto el término cuadrático como el de interacción, uno de ellos no es significativo.

¿Qué término (el cuadrático o la interacción) debo incluir en el modelo y por qué?

21voto

jldugger Puntos 7490

Sinopsis

Cuando los predictores están correlacionados, un término cuadrático y un término de interacción llevarán información similar. Esto puede hacer que el modelo cuadrático o el modelo de interacción sean significativos; pero cuando se incluyen ambos términos, debido a que son tan similares, ninguno puede ser significativo. Los diagnósticos estándar de multicolinealidad, como el VIF, pueden no detectar nada de esto. Incluso un gráfico de diagnóstico, diseñado específicamente para detectar el efecto de utilizar un modelo cuadrático en lugar de la interacción, puede no determinar qué modelo es el mejor.


Análisis

La idea central de este análisis, y su principal fuerza, es caracterizar situaciones como la descrita en la pregunta. Con esta caracterización disponible, es fácil simular datos que se comporten de forma adecuada.

Considere dos predictores $X_1$ y $X_2$ (que estandarizaremos automáticamente para que cada una tenga varianza unitaria en el conjunto de datos) y supongamos que la respuesta aleatoria $Y$ está determinada por estos predictores y su interacción más un error aleatorio independiente:

$$Y = \beta_1 X_1 + \beta_2 X_2 + \beta_{1,2} X_1 X_2 + \varepsilon.$$

En muchos casos los predictores son correlacionado. El conjunto de datos podría tener el siguiente aspecto:

Scatterplot matrix

Estos datos de muestra se generaron con $\beta_1=\beta_2=1$ y $\beta_{1,2}=0.1$ . La correlación entre $X_1$ y $X_2$ es $0.85$ .

Esto no significa necesariamente que estemos pensando en $X_1$ y $X_2$ como realizaciones de variables aleatorias: puede incluir la situación en la que ambos $X_1$ y $X_2$ son ajustes en un experimento diseñado, pero por alguna razón estos ajustes no son ortogonales.

Independientemente de cómo surja la correlación, una buena forma de describirla es en términos de cuánto difieren los predictores de su media, $X_0 = (X_1+X_2)/2$ . Estas diferencias serán bastante pequeñas (en el sentido de que su varianza es inferior a $1$ ); cuanto mayor sea la correlación entre $X_1$ y $X_2$ cuanto más pequeñas sean estas diferencias. Entonces, escribiendo, $X_1 = X_0 + \delta_1$ y $X_2 = X_0 + \delta_2$ podemos reexpresar (digamos) $X_2$ en términos de $X_1$ como $X_2 = X_1 + (\delta_2-\delta_1)$ . Conectando esto al interacción sólo el término, el modelo es

$$\eqalign{ Y &= \beta_1 X_1+ \beta_2 X_2 + \beta_{1,2}X_1(X_1+ [\delta_2-\delta_1]) + \varepsilon \\ &= (\beta_1 + \beta_{1,2}[\delta_2-\delta_1]) X_1+ \beta_2 X_2 + \beta_{1,2}X_1^2 + \varepsilon }$$

Siempre que los valores de $\beta_{1,2}[\delta_2-\delta_1]$ varían sólo un poco en comparación con $\beta_1$ podemos reunir esta variación con los términos aleatorios verdaderos, escribiendo

$$Y = \beta_1 X_1+ \beta_2 X_2 + \beta_{1,2}X_1^2 + \left(\varepsilon +\beta_{1,2}[\delta_2-\delta_1] X_1\right)$$

Por lo tanto, si hacemos una regresión $Y$ contra $X_1, X_2$ y $X_1^2$ estaremos cometiendo un error: la variación de los residuos dependerá de $X_1$ (es decir, será heteroscedástico ). Esto puede verse con un simple cálculo de la varianza:

$$\text{var}\left(\varepsilon +\beta_{1,2}[\delta_2-\delta_1] X_1\right) = \text{var}(\varepsilon) + \left[\beta_{1,2}^2\text{var}(\delta_2-\delta_1)\right]X_1^2.$$

Sin embargo, si la variación típica de $\varepsilon$ supera sustancialmente la variación típica de $\beta_{1,2}[\delta_2-\delta_1] X_1$ La heteroscedasticidad será tan baja que será indetectable (y debería dar lugar a un buen modelo). (Como se muestra a continuación, una forma de buscar esta violación de los supuestos de regresión es trazar el valor absoluto de los residuos contra el valor absoluto de $X_1$ --recordando que primero hay que estandarizar $X_1$ si es necesario). Esta es la caracterización que buscábamos.

Recordando que $X_1$ y $X_2$ se suponen estandarizados a la varianza unitaria, esto implica que la varianza de $\delta_2-\delta_1$ será relativamente pequeño. Por lo tanto, para reproducir el comportamiento observado, debería bastar con elegir un valor absoluto pequeño para $\beta_{1,2}$ pero hazlo lo suficientemente grande (o utiliza un conjunto de datos lo suficientemente grande) para que sea significativo.

En resumen, cuando los predictores están correlacionados y la interacción es pequeña pero no demasiado, un término cuadrático (en cualquiera de los predictores por sí solo) y un término de interacción serán individualmente significativos pero estarán confundidos entre sí. Es poco probable que los métodos estadísticos por sí solos nos ayuden a decidir cuál es mejor.


Ejemplo

Vamos a comprobarlo con los datos de la muestra ajustando varios modelos. Recordemos que $\beta_{1,2}$ se ha ajustado a $0.1$ al simular estos datos. Aunque es pequeño (el comportamiento cuadrático ni siquiera es visible en los gráficos de dispersión anteriores), con $150$ puntos de datos tenemos la posibilidad de detectarlo.

Primero, el modelo cuadrático :

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.03363    0.03046   1.104  0.27130    
x1           0.92188    0.04081  22.592  < 2e-16 ***
x2           1.05208    0.04085  25.756  < 2e-16 ***
I(x1^2)      0.06776    0.02157   3.141  0.00204 ** 

Residual standard error: 0.2651 on 146 degrees of freedom
Multiple R-squared: 0.9812, Adjusted R-squared: 0.9808 

El término cuadrático es significativo. Su coeficiente, $0.068$ , subestima $\beta_{1,2}=0.1$ pero tiene el tamaño y el signo adecuados. Como comprobación de la multicolinealidad (correlación entre los predictores), calculamos los factores de inflación de la varianza (VIF):

      x1       x2  I(x1^2) 
3.531167 3.538512 1.009199 

Cualquier valor inferior a $5$ se suele considerar que está bien. Esto no es alarmante.

Siguiente, el modelo con una interacción pero sin término cuadrático:

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.02887    0.02975    0.97 0.333420    
x1           0.93157    0.04036   23.08  < 2e-16 ***
x2           1.04580    0.04039   25.89  < 2e-16 ***
x1:x2        0.08581    0.02451    3.50 0.000617 ***

Residual standard error: 0.2631 on 146 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.9811

      x1       x2    x1:x2 
3.506569 3.512599 1.004566 

Todos los resultados son similares a los anteriores. Ambos son más o menos igual de buenos (con una ventaja muy pequeña para el modelo de interacción).

Por último, incluyamos tanto la interacción como los términos cuadráticos :

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.02572    0.03074   0.837    0.404    
x1           0.92911    0.04088  22.729   <2e-16 ***
x2           1.04771    0.04075  25.710   <2e-16 ***
I(x1^2)      0.01677    0.03926   0.427    0.670    
x1:x2        0.06973    0.04495   1.551    0.123    

Residual standard error: 0.2638 on 145 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.981 

      x1       x2  I(x1^2)    x1:x2 
3.577700 3.555465 3.374533 3.359040

Ahora, ni el término cuadrático ni el término de interacción son significativos, porque cada uno está tratando de estimar una parte de la interacción en el modelo. Otra forma de ver esto es que no se ganó nada (en términos de reducción del error estándar residual) al añadir el término cuadrático al modelo de interacción o al añadir el término de interacción al modelo cuadrático. Cabe destacar que los VIF no detectan esta situación: aunque la explicación fundamental de lo que hemos visto es la ligera colinealidad entre $X_1$ y $X_2$ que induce una colinealidad entre $X_1^2$ y $X_1 X_2$ , ninguno de ellos es lo suficientemente grande como para levantar banderas.

Si hubiéramos intentado detectar la heteroscedasticidad en el modelo cuadrático (el primero), estaríamos decepcionados:

Diagnostic plot

En el loess suave de este gráfico de dispersión hay un indicio muy tenue de que los tamaños de los residuos aumentan con $|X_1|$ pero nadie se tomaría en serio esta insinuación.

9voto

Eero Puntos 1612

¿Qué tiene más sentido según la fuente de los datos?

No podemos responder a esta pregunta por usted, el ordenador no puede responder a esta pregunta por usted. La razón por la que seguimos necesitando estadísticos en lugar de sólo programas estadísticos es por cuestiones como ésta. La estadística es algo más que hacer crujir los números, se trata de entender la pregunta y la fuente de los datos y ser capaz de tomar decisiones basadas en la ciencia y los antecedentes y otra información fuera de los datos que mira el ordenador. Tu profesor probablemente espera que contemples esto como parte de la tarea. Si yo hubiera asignado un problema como éste (y lo he hecho antes) estaría más interesado en la justificación de tu respuesta que en la que realmente has elegido.

Probablemente está más allá de su clase actual, pero un enfoque si no hay una razón científica clara para preferir un modelo sobre el otro es el promedio de modelos, usted ajusta ambos modelos (y tal vez varios otros modelos también), entonces usted promedia juntos las predicciones (a menudo ponderado por la bondad de ajuste de los diferentes modelos).

Otra opción, cuando sea posible, es recoger más datos y, si es posible, elegir los valores de x para que quede más claro cuáles son los efectos no lineales frente a los de interacción.

Existen algunas herramientas para comparar el ajuste de los modelos no anidados (AIC, BIC, etc.), pero para este caso probablemente no mostrarán suficiente diferencia como para anular la comprensión de la procedencia de los datos y lo que tiene más sentido.

1voto

Zizzencs Puntos 1358

Otra posibilidad, además de la de @Greg, es incluir ambos términos, aunque uno no sea significativo. Incluir sólo los términos estadísticamente significativos no es una ley del universo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X