Aquí está un ejemplo contrario al azar utilizando los datos generados y R:
library(MASS)
library(leaps)
v <- matrix(0.9,11,11)
diag(v) <- 1
set.seed(15)
mydat <- mvrnorm(100, rep(0,11), v)
mydf <- as.data.frame( mydat )
fit1 <- lm( V1 ~ 1, data=mydf )
fit2 <- lm( V1 ~ ., data=mydf )
fit <- step( fit1, formula(fit2), direction='forward' )
summary(fit)$r.squared
all <- leaps(mydat[,-1], mydat[,1], method='r2')
max(all$r2[ all$size==length(coef(fit)) ])
plot( all$size, all$r2 )
points( length(coef(fit)), summary(fit)$r.squared, col='red' )
whuber quería que el proceso de pensamiento: es sobre todo un contraste entre la curiosidad y la pereza. El post original habló acerca de tener 10 variables predictoras, así que eso es lo que he usado. El 0.9 correlación fue un bonito número redondo con una bastante alta correlación, pero no demasiado alto (si es demasiado alta, entonces el paso a paso solo podría levantar 1 o 2 predictores), pensé que la mejor oportunidad de encontrar un contraejemplo sería incluir una buena cantidad de colinealidad. Una más realista ejemplo, habría tenido diferentes correlaciones (pero sigue siendo una buena cantidad de colinealidad) y una relación definida entre los predictores (o un subconjunto de ellos) y la variable de respuesta. El tamaño de la muestra de 100 también fue el 1er me trató como un bonito número redondo (y la regla de oro que dice que usted debe tener al menos 10 observaciones por predictor). He probado el código anterior con semillas 1 y 2, luego se envuelve todo en un bucle y había que tratar de manera diferente las semillas de forma secuencial. En realidad, se detuvo en la semilla 3, pero la diferencia en $R^2$ estaba en el 15 de punto decimal, por lo que pensé que era más probable que los errores de redondeo y se reinicia con la comparación de redondeo a 5 dígitos. Me sorprendió gratamente que se encontró una diferencia tan pronto como 15. Si no hubiera encontrado un contraejemplo en una cantidad razonable de tiempo me hubiera comenzó a retorcer las cosas (la correlación, el tamaño de la muestra, etc.).