5 votos

Efecto cuadrático en la regresión de OLS

Actualmente estoy tratando de hacer una regresión por MCO con datos de productos en línea de los comentarios y tengo dos preguntas:

  1. ¿Tengo que usar ambos, la lineal y la cuadrática efecto en el modelo o es también bueno para mantener sólo el cuadrado de la variable en el modelo? He leído que tengo que usar ambos, pero realmente no entiendo por qué. Así que, ¿por qué debería ser así?

  2. Estoy haciendo una regresión con una amabilidad puntaje de la línea de comentarios de productos como la variable dependiente y la clasificación por estrellas de los comentarios (enteros entre 1 y 5) como una variable independiente. Me gustaría incorporar un cuadrado en efecto, debido a que la hipótesis de que el 1 y 5 grados de la estrella son más útiles que moderar los comentarios (por ejemplo, 3 estrellas). Cuando acabo la plaza de la clasificación por estrellas puedo obtener 0, 1, 4, 9, o 25 como valores posibles para el cuadrado de la variable. Sin embargo, para mí tiene mucho más sentido a la primera resta 3 de la clasificación y, a continuación, la plaza de las variables, ya que este refleja mejor la hipótesis de que la extremer una calificación mayor será su utilidad puntuación. Ahora, tengo 4, 1, 0, 1, o 4 como valores posibles para el cuadrado de la variable. Tendría sentido hacer esto?

Gracias por sus respuestas!

12voto

Aksakal Puntos 11351

No tienes que usar un término lineal con una cuadrática, pero es generalmente una buena idea. La situación única de no usarlo es cuando tu teoría te dice que tienes un proceso cuadrático. Por ejemplo, si de alguna manera están midiendo energía cinética como función de la velocidad, entonces no es ningún término lineal en teoría: $$e=m\frac{v^2}{2}$ $

Estos son casos raros, cuando no hay necesidad de términos lineales. De lo contrario, es mejor mantenerlos. Si no tienes una teoría sólida, mantenerlos.

4voto

alexs77 Puntos 36

En mi experiencia, yo diría que sí, que siempre ajustar para el bajo nivel de los términos cuando se ajusta el polinomio de tendencias. Este es el enfoque que se recomienda en la mayoría de los de la bioestadística de los libros de texto que he encontrado. La razón de esto es que los términos tienen garantizada la correcta interpretación. Por ejemplo, si se omite un lineales (de primer orden) plazo durante el montaje de una ecuación cuadrática efecto, no está garantizado que la interpretación del coeficiente de la pendiente de la curva de tendencia cuadrática. Se están limitando el ajuste de modo que la pendiente del ajuste por el origen es 0. Pero cuando en la Tierra estamos tan seguros de que este es el caso? De medición pequeños calibraciones esa inclinación o desplazamiento de las mediciones por una sola unidad puede catastróficamente atenuar una ecuación cuadrática de la pendiente. En relación a la pequeña cantidad de energía que gastamos para estimar el término lineal, abogamos por el uso de siempre.

Con respecto a tu segundo punto, este sostiene más para incluir el término lineal. Estoy de acuerdo en centrar el valor de 3 es bueno porque le da un 0 y 5 estrellas a la misma influencia por simetría (pero la hipótesis de que una determinada calificación es más "útil" depende de lo que se puede estimar. Se puede estimar una negativa tendencia cuadrática en 3 estrellas, lo que sugiere que moderar los comentarios son los más útiles... ese es el punto sobre el ser agnóstico con las estadísticas).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X