67 votos

¿Tiene sentido añadir un término cuadrático pero no el lineal a un modelo?

Tengo un modelo (mixto) en el que uno de mis predictores sólo debe estar a priori relacionado cuadráticamente con el predictor (debido a la manipulación experimental). Por lo tanto, me gustaría añadir al modelo sólo el término cuadrático. Dos cosas me impiden hacerlo:

  1. Creo que leí en alguna parte que siempre se debe incluir el polinomio de orden inferior cuando se ajusta a los polinomios de orden superior. Olvidé dónde lo encontré y en la literatura que miré (por ejemplo, Faraway, 2002; Fox, 2002) no puedo encontrar una buena explicación.
  2. Cuando añado ambos, el término lineal y el cuadrático, ambos son significativos. Cuando añado sólo uno de ellos, no son significativos. Sin embargo, una relación lineal de predicción y datos no es interpretable.

El contexto de mi pregunta es específicamente un modelo mixto que utiliza lme4 pero me gustaría obtener respuestas que pudieran explicar por qué es o por qué no está bien incluir un polinomio de orden superior y no el polinomio de orden inferior.

Si es necesario, puedo proporcionar los datos.

5 votos

Creo que las respuestas a esto pregunta puede ser útil.

6 votos

Sí, estoy de acuerdo con Procrastinator, y las preguntas de interacción son esencialmente la misma consideración. Tenemos una algunas preguntas muy votadas sobre el tema. Además de la sugerencia de Pro, véase también ¿Todos los términos de las interacciones necesitan sus términos individuales en el modelo de regresión? y ¿Y si la interacción anula mis efectos directos en la regresión? .

0 votos

Gracias por el recordatorio de estas preguntas. De las respuestas dadas allí parece que es una estrategia aceptable si se tienen buenas razones a priori para incluir sólo el término cuadrático y no es errónea en sí misma. La pregunta que queda es la de la escalabilidad (ver: stats.stackexchange.com/a/27726/442 ). ¿Debo centrar mi variable antes del ajuste si sólo utilizo el término cuadrático?

76voto

jldugger Puntos 7490

1. ¿Por qué incluir el término lineal?

Es revelador observar que una relación cuadrática puede escribirse de dos maneras:

$$y = a_0 + a_1 x + a_2 x^2 = a_2(x - b)^2 + c$$

(donde, igualando los coeficientes, encontramos $-2a_2 b = a_1$ y $a_2 b^2 + c = a_0$ ). El valor $x=b$ corresponde a un extremo global de la relación (geométricamente, localiza el vértice de una parábola).

Si no se incluye el término lineal $a_1 x$ las posibilidades se reducen a

$$y = a_0 + a_2 x^2 = a_2(x - 0)^2 + c$$

(donde ahora, obviamente, $c = a_0$ y se supone que el modelo contiene un término constante $a_0$ ). Es decir, se obliga a $b=0$ .

A la luz de esto, la pregunta nº 1 se reduce a si usted es cierta que el extremo global debe ocurrir en $x=0$ . Si es así, entonces puede omitir con seguridad el término lineal $a_1 x$ . De lo contrario, usted debe incluirlo.

2. ¿Cómo entender los cambios de significado según se incluyan o excluyan términos?

Esto se discute con gran detalle en un hilo relacionado en https://stats.stackexchange.com/a/28493 .

En el presente caso, la importancia de $a_2$ indica que hay una curvatura en la relación y la importancia de $a_1$ indica que $b$ es distinto de cero: parece que hay que incluir ambos términos (además de la constante, por supuesto).

1 votos

Gracias Whuber. Gran respuesta. Así que si centro el extremo teórico en 0 (en realidad es un mínimo) me parece bien omitir el término lineal. Esto realmente conduce a un predictor cuadrático altamente significativo (sin el lineal).

0 votos

Si los términos lineales y cuadráticos de una variable están correlacionados, ¿puedo incluir ambos en un modelo, o debo excluir uno (que supongo que debería ser el cuadrático)?

0 votos

@Teresa No hay ninguna razón general para eliminar los términos correlacionados en una regresión. (Si así fuera, la gran mayoría de los modelos de regresión jamás creados tendrían problemas). Muy fuertemente Los términos correlacionados que en conjunto no aportan nada significativo al ajuste del modelo en comparación con cualquiera de los términos por separado pueden reducirse a un subconjunto de esos términos.

27voto

Sean Hanley Puntos 2428

@whuber ha dado una respuesta realmente excelente aquí. Sólo quiero añadir un pequeño punto complementario. La pregunta dice que "una relación lineal entre el predictor y los datos no es interpretable". Esto apunta a un malentendido común, aunque suelo escucharlo en el otro extremo ("¿cuál es la interpretación del término cuadrado [cúbico, etc.]?").

Cuando tenemos un modelo con múltiples diferentes covariables, cada [término] beta puede generalmente tener su propia interpretación. Por ejemplo, si
$$ \widehat{\text{GPA}}_{college}=\beta_0+\beta_1\text{GPA}_{highschool}+\beta_2\text{class rank}+\beta_3\text{SAT}, $$

(GPA significa promedio de calificaciones;
el rango es la ordenación del GPA de un estudiante en relación con otros estudiantes de la misma escuela secundaria; &
SAT significa "scholastic aptitude test" (prueba de aptitud académica), una prueba estándar de ámbito nacional para los estudiantes que van a la universidad)

entonces podemos asignar interpretaciones separadas a cada beta/término. Por ejemplo, si el GPA de un estudiante en la escuela secundaria fuera 1 punto más alto -si todo lo demás es igual- esperaríamos que su GPA en la universidad fuera $\beta_1$ puntos más altos.

Sin embargo, es importante señalar que no siempre es admisible interpretar un modelo de esta manera. Un caso obvio es cuando hay una interacción entre algunas de las variables, ya que no sería posible que el término individual difiriera y que todo lo demás se mantuviera constante; necesariamente, el término de la interacción también cambiaría. Por lo tanto, cuando hay una interacción, no interpretamos los efectos principales, sino sólo efectos simples como es bien sabido.

La situación con los términos de potencia es directamente análoga, pero desgraciadamente, no parece ser ampliamente comprendida. Consideremos el siguiente modelo:
$$ \hat{y}=\beta_0+\beta_1x+\beta_2x^2 $$ (En esta situación, $x$ pretende representar una covariable continua prototípica). No es posible que $x$ para cambiar sin $x^2$ cambiando también, y viceversa. En pocas palabras, cuando hay términos polinómicos en un modelo, los distintos términos basados en la misma covariable subyacente no se pueden interpretar por separado. El $x^2$ ( $x$ , $x^{17}$ etc.) no tiene ningún significado independiente. El hecho de que un $p$ -el término polinómico de potencia es "significativo" en un modelo indica que hay $p-1$ "curvas" en la función que relaciona $x$ y $y$ . Es desafortunado, pero inevitable, que cuando existe curvatura, la interpretación se complica y posiblemente es menos intuitiva. Para evaluar el cambio en $\hat{y}$ como $x$ cambios, tendremos que usar el cálculo. La derivada del modelo anterior es:
$$ \frac{dy}{dx}=\beta_1+2\beta_2x $$ que es la tasa de variación instantánea del valor esperado de $y$ como $x$ cambios, en igualdad de condiciones. Esto no es tan limpio como la interpretación del modelo superior; es importante que la tasa instantánea de cambio en $y$ depende del nivel de $x$ a partir del cual se evalúa el cambio . Además, la tasa de cambio de $y$ es una tasa instantánea, es decir, que cambia continuamente a lo largo del intervalo entre $x_{old}$ a $x_{new}$ . Esto es simplemente la naturaleza de una relación curvilínea.

2 votos

¡Excelente respuesta! Esto me recuerda unas cuantas respuestas excelentes que el usuario chl ha proporcionado en interpretación de los efectos de interacción . En esta respuesta da referencias de artículos, ¿Cuáles son las mejores prácticas para identificar los efectos de interacción? . Y ofrece un magnífico ejemplo de visualización gráfica de la interacción mediante coplots en esta respuesta, ¿Es posible la interacción entre dos variables continuas? .

1 votos

A la respuesta de Gung sólo quiero decir que el modelado estadístico implica ruido que puede disfrazar los detalles en un modelo de regresión polinómica. Creo que la cuestión del centrado que planteó Bill Huber fue genial porque en una formulación falta un término lineal y en la otra ocurre con el término cuadrático. La fuerza de la curvatura en la señal dicta la necesidad de un término de orden superior al primero, pero realmente no nos dice nada sobre la necesidad de un término lineal también.

10voto

Andrew Puntos 629

@whuber's respuesta anterior da en el clavo al señalar que omitir el término lineal es el modelo cuadrático "habitual" equivale a decir: "Estoy absolutamente seguro de que el extremo está en $x=0$ ."

Sin embargo, también hay que comprobar si el software que se utiliza tiene un "gotcha". Algunos programas informáticos pueden centrar automáticamente los datos al ajustar un polinomio y probar sus coeficientes a menos que se desactiva el centrado polinómico. Es decir, puede ajustarse a una ecuación que se parezca a $Y = b_0 + b_2(x - \bar{x})^2$ donde $\bar{x}$ es la media de su $x$ s. Eso obligaría a que el extremo estuviera en $x=\bar{x}$ .

Tu afirmación de que tanto los términos lineales como los cuadráticos son significativos cuando se introducen ambos necesita alguna aclaración. Por ejemplo, SAS puede informar de una prueba de tipo I y/o de tipo III para ese ejemplo. El Tipo I comprueba el término lineal antes de introducir el cuadrático. El Tipo III prueba el lineal con el cuadrático en el modelo.

2 votos

Este es un punto razonable, pero sólo b / los datos se centraron antes de crear $x^2$ no significa que se pueda estar "absolutamente seguro de que el extremo está en $x=0$ ". Diciendo que ahora equivale a haber dicho "el extremo está en $x=\bar{x}$ " antes de . En cualquier caso, usted está apostando la insesgadez de su modelo en su capacidad para especificar el valor x del extremo con una precisión infinita. La diferencia entre las pruebas de tipo I y las de tipo III es también una adición potencialmente interesante, pero nb, sólo diferirían si $x$ & $x^2$ están correlacionados, es decir, si el centrado tuvo no se ha producido.

1 votos

En otro orden de cosas, puedes referirte a las contribuciones de un usuario indicando su nombre de usuario, a ser posible con el símbolo "arroba". Por ejemplo, en este caso, "la respuesta de @whuber da en el clavo...". (Un sentimiento con el que estoy de acuerdo).

1 votos

Gracias, Emil, por aportar estos recordatorios: vale la pena tenerlos en cuenta.

3voto

Devon_C_Miller Puntos 126

Brambor, Clark y Golder (2006) (que viene con un apéndice de internet ) tienen una visión muy clara de cómo entender los modelos de interacción y cómo evitar las trampas más comunes, incluyendo por qué se deben incluir (casi) siempre los términos de orden inferior ("términos constitutivos") en los modelos de interacción.

Los analistas deben incluir todos los términos constitutivos al especificar los modelos de interacción multiplicativa, excepto en circunstancias muy raras. Por términos constitutivos se entiende cada uno de los elementos que constituyen el término de interacción. [..]

No obstante, el lector debe tener en cuenta que los modelos de interacción multiplicativa pueden adoptar diversas formas y pueden incluir términos cuadráticos como $X^2$ o términos de interacción de orden superior como $XZJ$ . Independientemente de la forma que adopte el término de interacción, deben incluirse todos los términos constitutivos. Así pues, $X$ debe incluirse cuando el término de interacción es $X^2$ y $X$ , $Z$ , $J$ , $XZ$ , $XJ$ y $ZJ$ debe incluirse cuando el término de interacción es $XZJ$ .

No hacerlo puede dar lugar a un modelo mal especificado que llevaría a estimaciones sesgadas. Esto puede dar lugar a errores de inferencia.

Si este es el caso y $Z$ está correlacionada con $XZ$ (o $X$ ) como ocurrirá en prácticamente cualquier circunstancia de las ciencias sociales, entonces omitiendo el término constitutivo $Z$ dará lugar a estimaciones sesgadas (e incoherentes) de $\beta_0$ , $\beta_1$ y $\beta_3$ . Aunque no siempre se reconoce como tal, se trata de un caso directo de sesgo de variable omitida (Greene 2003, pp. 148-149).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X