Esta es una captura de pantalla de Introducción a la regresión lineal por Douglas C. Solemos suponer que en el modelo de regresión lineal $y$ tiene una relación lineal con el parámetro, pero por qué aquí el autor dice $y$ debe tener una relación lineal con el regresor $x$ ?
Respuestas
¿Demasiados anuncios?Los modelos lineales suponen una relación lineal porque los modelos lineales estiman funciones de la forma $y = a + b_1 x_1 + b_2 x_2 + \cdots +b_n x_n + \text{error}$ es decir, funciones lineales. Si no tiene una relación lineal, tiene que utilizar un modelo diferente o transformar de alguna manera $y$ y/o $x$ para que el modelo sea lineal.
Creo que posiblemente esté confundiendo dos conceptos diferentes. En el modelo lineal general, modelamos la respuesta como una combinación lineal que es lineal en los parámetros (por ejemplo, B0 + B1 + B2, etc.), lo que es diferente de suponer que existe una relación lineal entre algún predictor x y la respuesta y. La suposición de esta relación lineal es un supuesto fundamental del método.
Este párrafo es un poco difícil de entender, así que daré un pequeño ejemplo para ayudar a desentrañar lo que dice en términos de suposiciones.
Imaginemos que y = grasa corporal, x1 = peso corporal y x2 = altura corporal y que estamos interesados en investigar la relación entre y y x1 y x2 para todos los varones adultos de una comunidad específica basándonos en una muestra aleatoria de 1000 varones de esa comunidad.
El modelo de regresión lineal que relaciona y con x1 y x2 puede entonces enunciarse como
y = beta0 + beta1*x1 + beta2*x2 + error. (*)
En el contexto de este ejemplo, el párrafo resaltado en verde en tu post debe interpretarse como:
- y (grasa corporal) está relacionada linealmente con x1 (peso corporal) para todos los hombres adultos de la comunidad que comparten la misma altura corporal (es decir, que tienen el mismo valor para x2);
- y (grasa corporal) está relacionada linealmente con x2 (altura corporal) para todos los hombres adultos de la comunidad que comparten la misma grasa corporal (es decir, que tienen el mismo valor para x1).
Así que las suposiciones son que y está relacionado linealmente con x1 para cada valor de x2 y y está relacionado linealmente con x2 para cada valor de x1. El supuesto de linealidad se refiere a dos variables (por ejemplo, y y x1) después de controlar el efecto de la otra variable de predicción (por ejemplo, x2). El parámetro beta1 no es más que una forma de cuantificar esta relación, ya que indica la rapidez con la que cambia y con x1 entre los hombres adultos con el mismo valor de x2. Del mismo modo, el parámetro beta2 indica la rapidez con la que y cambia con x2 entre los hombres adultos con el mismo valor de x1.
Normalmente comprobamos estos supuestos trazando los residuos obtenidos tras ajustar el modelo (*) a los datos por separado contra cada uno de x1 y x2. Si esos gráficos no muestran ningún patrón sistemático, los datos confirman las hipótesis. Si uno de los gráficos muestra un patrón sistemático (por ejemplo, un patrón cuadrático), eso es una indicación de que el predictor respectivo tiene un efecto no lineal sobre y después de controlar el efecto del otro predictor.