6 votos

¿Cómo lidiar con una ineludible correlación entre dos variables independientes?

En un modelo de regresión lineal simple con dos variables independientes, si hay una fuerte correlación entre las variables, se sugiere que debemos incluir sólo uno de ellos en el modelo.

Estoy construyendo un modelo donde la variable dependiente es el Almuerzo Costo y las variables independientes son el Número de Clase de los Alumnos de 1 de Comprar el Almuerzo y el Número de la Clase 2 Estudiantes de Comprar el Almuerzo. Sin embargo, he encontrado una fuerte correlación entre las dos variables independientes; cuando el Número de Clase de los Alumnos de 1 de Comprar el Almuerzo aumenta, el Número de la Clase 2 Estudiantes de Comprar el Almuerzo se incrementa.

En este caso, la eliminación de uno de ellos desde el modelo no parece ideal ya que mi objetivo es saber cómo las dos variables independientes describiría el Almuerzo Costo. ¿Qué debo hacer aquí? Gracias!

6voto

Rob Allen Puntos 486

La primera pregunta es: ¿usted realmente necesita atención? Si estás tratando de predecir los futuros costos de los almuerzos, entonces este no es realmente un problema. Por otro lado, si usted está tratando de evaluar las contribuciones relativas de Clase #1 y la Clase #2 los estudiantes para el costo, entonces la multicolinealidad es un problema más grande.

En un buen comportamiento, no colinear modelo, se podría adoptar un modelo como $y = \beta_0 + \beta_1 \cdot x_1 + \beta_2 \cdot x_2$ y en forma con nuestros datos para encontrar el $\beta$ valores. Podríamos encontrar que $\beta_1 = 2$$\beta_2 = -0.5$, lo cual indicaría que una unidad de incremento en $x_1$ resultados en un 2 unidad de incremento en $y$, mientras que un cambio similar en $x_2$ hace una media unidad disminución en el $y$. Sin embargo, si $x_1$ $x_2$ están altamente correlacionados, esta interpretación va a la derecha de la ventana.

Supongamos que se ajustan a un modelo $Y = \beta_0 + \beta_1 \cdot x_1$ y se encontró que el $\beta_0 = 0$ $\beta_1 = 4.$ Todo genial! Ahora podemos hacer algo tonto y se ajustan a este modelo en lugar de $Y = \beta_0 + \beta_1 \cdot x_1 + \beta_2 \cdot x_2$ donde $x_1 = x_2$ (en otras palabras, $x_1$ $x_2$ están totalmente correlacionados).

En este caso, podemos elegir, literalmente, cualquier conjunto de $\{\beta_1, \beta_2\}$ valores que añadir hasta cuatro: (2,2), (1,3), (1003, -999), y así sucesivamente: estos son todos los puntos en la línea $x+y=4$ (de ahí el nombre!). Estos te darán la misma predicción, pero dependiendo de la opción que usted sería afirmar que un 1 unidad de incremento en $x_1$ se asocia con un 2, 1, o 1003 unidad de incremento en $y$, respectivamente, lo que puede no ser correcto! Obviamente este es un ejemplo extremo, pero usted podría imaginar algo similar sucede cuando la $x_s$ son algo menos fuertemente correlacionados.

Yo también estoy tentado a preguntar por qué estás en la separación de estudiantes por clase - ¿hay alguna razón para pensar que la Clase #1 y la Clase #2 estudiantes contribuyen de manera diferente a la de los precios de la comida? Tal vez un modelo donde la regresión en el almuerzo costo ~ número total de estudiantes, sería más apropiado?

0voto

Cory Puntos 4442

Basa en el hecho de que es la edad promedio de la clase 2 y clase 1 puede importa que (presumen), usted podría tratar de un modelo donde la respuesta es costo de almuerzo, y los predictores son

  1. un factor para si un estudiante está en clase 1 o clase 2
  2. edad del estudiante

Esta manera, usted puede pedir si la edad importa, y si también asuntos pertenecientes a la clase 2 (en lugar de clase 1, que sería una línea de base).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X