8 votos

Hace un enfoque gradual que producen el mayor $R^2$ modelo?

Cuando se utiliza el avance paso a paso de enfoque para seleccionar las variables, es el modelo de gama garantizado para tener la máxima $R^2$? Dicho de otra manera, ¿el enfoque progresivo de garantizar un óptimo global o sólo un óptimo local?

Como un ejemplo, si yo tengo 10 variables para seleccionar y quieren construir un 5-variable del modelo, el resultado final de 5 variable modelo construido por el enfoque gradual que tiene el mayor $R^2$ de todas las posibles 5-modelos de variables que podría haber sido construido?

Tenga en cuenta que esta pregunta es puramente teórico, es decir, no estamos debatiendo si un alto $R^2$ valor óptimo, si se lleva a overfit, etc.

12voto

Zizzencs Puntos 1358

Si usted realmente desea conseguir el mayor $R^2$ tienes que mirar (como @dijo Michael) en todos los subgrupos. Con una gran cantidad de variables, que a veces, no es factible, y existen métodos para acercarse sin pruebas de cada subconjunto. Un método que se llama (CREO) "a pasos agigantados" y está en el paquete de R saltos.

Sin embargo, esto va a producir muy sesgado los resultados. los valores de p será demasiado baja, los coeficientes sesgados de distancia de 0, los errores estándar son demasiado pequeños; y todo por las cantidades que son imposibles de estimar correctamente.

La selección paso a paso también tiene este problema.

Recomiendo fuertemente en contra de cualquier automatizado de selección de variables método, ya que la peor cosa acerca de ellos es que deje de pensar; o, para decirlo de otra manera, un analista de datos que utiliza métodos automatizados es decirle a su jefe que pagar él/ella menos.

Si usted debe usar un método automatizado, entonces usted debe separar los datos en conjuntos de pruebas y entrenamiento, o, posiblemente, la formación, la validación, y la final de conjuntos.

5voto

mat_geek Puntos 1367

No necesariamente obtener el más alto R$^2$ porque comparar sólo un subconjunto de los posibles modelos, y puede perderse el uno con el más alto R$^2$, lo que podría incluir todas las variables.. Para conseguir que el modelo que tendría que buscar en todos los subconjuntos. Pero el mejor modelo no puede ser el uno con el más alto R$^2$ porque puede ser que más en forma, ya que incluye todas las variables.

0voto

Eero Puntos 1612

Aquí está un ejemplo contrario al azar utilizando los datos generados y R:

library(MASS)
library(leaps)

v <- matrix(0.9,11,11)
diag(v) <- 1

set.seed(15)
mydat <- mvrnorm(100, rep(0,11), v)
mydf <- as.data.frame( mydat )

fit1 <- lm( V1 ~ 1, data=mydf )
fit2 <- lm( V1 ~ ., data=mydf )

fit <- step( fit1, formula(fit2), direction='forward' )
summary(fit)$r.squared

all <- leaps(mydat[,-1], mydat[,1], method='r2')
max(all$r2[ all$size==length(coef(fit)) ])

plot( all$size, all$r2 )
points( length(coef(fit)), summary(fit)$r.squared, col='red' )

R2

whuber quería que el proceso de pensamiento: es sobre todo un contraste entre la curiosidad y la pereza. El post original habló acerca de tener 10 variables predictoras, así que eso es lo que he usado. El 0.9 correlación fue un bonito número redondo con una bastante alta correlación, pero no demasiado alto (si es demasiado alta, entonces el paso a paso solo podría levantar 1 o 2 predictores), pensé que la mejor oportunidad de encontrar un contraejemplo sería incluir una buena cantidad de colinealidad. Una más realista ejemplo, habría tenido diferentes correlaciones (pero sigue siendo una buena cantidad de colinealidad) y una relación definida entre los predictores (o un subconjunto de ellos) y la variable de respuesta. El tamaño de la muestra de 100 también fue el 1er me trató como un bonito número redondo (y la regla de oro que dice que usted debe tener al menos 10 observaciones por predictor). He probado el código anterior con semillas 1 y 2, luego se envuelve todo en un bucle y había que tratar de manera diferente las semillas de forma secuencial. En realidad, se detuvo en la semilla 3, pero la diferencia en $R^2$ estaba en el 15 de punto decimal, por lo que pensé que era más probable que los errores de redondeo y se reinicia con la comparación de redondeo a 5 dígitos. Me sorprendió gratamente que se encontró una diferencia tan pronto como 15. Si no hubiera encontrado un contraejemplo en una cantidad razonable de tiempo me hubiera comenzó a retorcer las cosas (la correlación, el tamaño de la muestra, etc.).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X