10 votos

¿Por qué es la regresión lineal no es capaz de predecir el resultado de una simple secuencia determinista?

Un colega mío me envió este problema aparentemente haciendo las rondas en el internet:

If $3 = 18, 4 = 32, 5 = 50, 6 = 72, 7 = 98$, Then, $10 =$ ?

La respuesta parece ser de 200.

3*6  
4*8  
5*10  
6*12  
7*14  
8*16  
9*18  
10*20=200  

Cuando hago una regresión lineal en R:

data     <- data.frame(a=c(3,4,5,6,7), b=c(18,32,50,72,98))  
lm1      <- lm(b~a, data=data)  
new.data <- data.frame(a=c(10,20,30))  
predict  <- predict(lm1, newdata=new.data, interval='prediction')  

Obtengo:

  fit      lwr      upr  
1 154 127.5518 180.4482  
2 354 287.0626 420.9374  
3 554 444.2602 663.7398  

Así que mi modelo lineal es la predicción de la $10 = 154$.

Cuando me graficar los datos se ve lineal... pero obviamente supuse que algo que no es correcto.

Estoy tratando de aprender cómo hacer el mejor uso de modelos lineales en R. ¿Cuál es la forma correcta de analizar esta serie? ¿De dónde me salen mal?

23voto

Sean Hanley Puntos 2428

Un modelo de regresión, tales como el ajuste por lm() implícitamente asume que los datos subyacentes proceso de generación es probabilístico. Usted está asumiendo que la regla de que usted está tratando de modelo es determinista. Por lo tanto, hay un desajuste entre lo que usted está tratando de hacer y de la manera que usted está tratando de hacer.

Hay otro software (es decir, no de R) que está diseñado explícitamente para encontrar el ajuste de la función más sencilla para determinista de datos (un ejemplo sería Eureqa). Puede haber un paquete de R para el que (que no conozco), pero R es la intención para el modelado estadístico probabilístico de datos.

Como por la respuesta que lm() le dio, parece razonable, y podría ser correcto. Sin embargo, deduzco que el contexto en el que este problema se presenta fuertemente a entender que debe ser entendido como determinista. Si ese no hubiera sido el caso, y que se preguntan si el ajuste es razonable, una cosa que usted puede notar es que los dos extremos de puntos de datos están por encima de la línea de regresión, mientras que el centro de datos están todas por debajo de ella. Esto sugiere un mal especificado de forma funcional. Esto también puede ser visto en los residuos vs equipada parcela (plot(lm1, which=1):

enter image description here

Como para el ajuste del modelo por @AlexWilliams, se ve mucho mejor:

enter image description here

22voto

Dreur Puntos 28

La tendencia es cuadrática no lineal. Probar:

lm1 <- lm(b~I(a^2), data=data)

Actualización: Aquí está el código.

data <- data.frame(a=c(3,4,5,6,7),b=c(18,32,50,72,98))
lm1 <- lm(b~I(a^2), data=data)
new.data <- data.frame(a=c(10,20,30))
predict(lm1, newdata = new.data, interval='prediction')

Y de salida:

   fit  lwr  upr
1  200  200  200
2  800  800  800
3 1800 1800 1800

13voto

nikolaMM94 Puntos 38

No me atrevo a agregar a las excelentes respuestas dadas por Alex Williams y gung, pero hay otro punto que creo que se hizo. La cuestión utiliza las frases de 'regresión lineal" y "modelo lineal", quizás lo que sugiere que significan lo mismo. Sin embargo, el significado usual de "regresión lineal" se refiere a la Clásica Modelo de Regresión Lineal (CLRM) en el que el 'lineal' significa 'lineal en los parámetros". Esta es una condición en los parámetros, no en las variables independientes. Así, un modelo cuadrático, tales como:

$$Y_i = \beta_1 + \beta_2X_i^2$$

todavía es lineal en el sentido de CLRM, porque es lineal en los parámetros de $\beta_1$$\beta_2$. Por el contrario, en el modelo:

$$Y_i = \beta_1 + \beta_2X_i$$

es lineal en sus parámetros y también lineal en $X_i$. En lugar de llamar a un modelo lineal, de una manera más precisa declaración es que es lineal en sus parámetros y ha lineal de la forma funcional. Así que puede decirse que la serie puede ser analizada mediante un modelo que es lineal en sus parámetros, siempre ha cuadrática de la forma funcional (como se muestra por Alex Williams), pero no por tener un modelo lineal de la forma funcional.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X