No. El método propuesto se parece muy poco probable que produzca resultados útiles. El problema que yo anticiparía que es un montón de resultados positivos falsos.
Por ejemplo, supongamos que se desea predecir $y$ y tiene dos predictores $x$$z$. Vamos
$y = x + \epsilon_1$
$z = x + \epsilon_2$
A continuación, el método propuesto es probable que seleccionar tanto $x$$z$. Cualquier decente modelo lineal que involucra $x$ $z$ simultáneamente se llevará a ver que $z$ no es necesaria la presencia de $x$.
Esto puede sonar raro, pero a medida que agrega más variables a un modelo que es más probable que ya se han dado cuenta de todas las señales.
El resultado de esto es que usted puede tener que hacer un montón de adicional innecesaria de experimentos.
Yo sugeriría que el OP investigar LAZO de regresión. Esto se ajusta muy bien para $p \gg n$ problemas de regresión donde la variable es necesario realizar la selección.
En general, mientras que imagino esta zona debería haber sido completamente desarrollado para modelos lineales, el $p \gg n$ selección de variables problema es todavía un área de investigación activa.
X = rnorm(1000)
Y = X + rnorm(1000)
Z = X + rnorm(1000)
summary(lm(Y ~ Z))
Call:
lm(formula = Y ~ Z)
Residuals:
Min 1Q Median 3Q Max
-3.8207 -0.8326 -0.0109 0.8688 3.8545
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.02033 0.03998 -0.509 0.611
Z 0.50815 0.02840 17.895 <2e-16 ***
---
Signif. codes: 0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1
Residual standard error: 1.264 on 998 degrees of freedom
Multiple R-squared: 0.2429, Adjusted R-squared: 0.2422
F-statistic: 320.2 on 1 and 998 DF, p-value: < 2.2e-16
summary(lm(Y ~ X + Z))
Call:
lm(formula = Y ~ X + Z)
Residuals:
Min 1Q Median 3Q Max
-3.5276 -0.6879 -0.0111 0.6992 3.4331
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.021569 0.032455 -0.665 0.506
X 1.028787 0.045233 22.744 <2e-16 ***
Z 0.001838 0.032047 0.057 0.954
---
Signif. codes: 0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1
Residual standard error: 1.026 on 997 degrees of freedom
Multiple R-squared: 0.5015, Adjusted R-squared: 0.5005
F-statistic: 501.6 on 2 and 997 DF, p-value: < 2.2e-16
EDIT: Sobre si el método propuesto sería limpiar todos los verdaderos positivos. Yo sería dudoso.
En primer lugar, asumiendo que todos los verdaderos positivos fueron encontradas, a continuación, la propuesta de mecanismo de filtrado basado en $R^2$ estaría en problemas. Supongamos que hemos añadido a la verdad en nuestro ejemplo otra variable $q$ que no contribuyen mucho a total variación en $y$:
$y = x + 0.1q + \epsilon$
A continuación, $q$ a menudo tienen un menor$R^2$$z$. Así que usted no sería capaz de
confía en tu ranking mecanismo.
> Q = rnorm(1000)
> Y = X + 0.1*Q + rnorm(1000)
> summary(lm(Y~X+Z+Q))
Call:
lm(formula = Y ~ X + Z + Q)
Residuals:
Min 1Q Median 3Q Max
-3.4460 -0.6397 0.0551 0.6146 3.6106
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.002512 0.032670 0.077 0.938719
X 0.981008 0.047013 20.867 < 2e-16 ***
Z 0.015557 0.033436 0.465 0.641838
Q 0.115547 0.032690 3.535 0.000427 ***
---
Signif. codes: 0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1
Residual standard error: 1.03 on 996 degrees of freedom
Multiple R-squared: 0.487, Adjusted R-squared: 0.4855
F-statistic: 315.2 on 3 and 996 DF, p-value: < 2.2e-16
> summary(lm(Y~Z))
Call:
lm(formula = Y ~ Z)
Residuals:
Min 1Q Median 3Q Max
-3.8912 -0.8182 -0.0121 0.8061 3.7114
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.03833 0.03915 0.979 0.328
Z 0.51934 0.02785 18.645 <2e-16 ***
---
Signif. codes: 0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1
Residual standard error: 1.238 on 998 degrees of freedom
Multiple R-squared: 0.2583, Adjusted R-squared: 0.2576
F-statistic: 347.6 on 1 and 998 DF, p-value: < 2.2e-16
> summary(lm(Y~Q))
Call:
lm(formula = Y ~ Q)
Residuals:
Min 1Q Median 3Q Max
-4.2620 -0.9772 0.0030 1.0116 4.7014
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.02539 0.04535 0.56 0.576
Q 0.10861 0.04544 2.39 0.017 *
---
Signif. codes: 0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1
Residual standard error: 1.433 on 998 degrees of freedom
Multiple R-squared: 0.005693, Adjusted R-squared: 0.004696
F-statistic: 5.714 on 1 and 998 DF, p-value: 0.01702
También preveo que como el verdadero modelo para $y$ se hizo más compleja, por ejemplo,
$y = x_1 + x_2 + ... + x_n + q + \epsilon$
Luego de la regresión en $q$ solo terminaría hasta no ver el coeficiente significativo. La razón para esto es que la variación estructural en $y$ debido a $x$ involucrarte en nuestra estimación de que el ruido de la $\sigma^2$
La razón para esto es que la omisión de las verdaderas variables $x$ nuestra regresión del rendimiento empeora, el error cuadrático medio se hace más grande, $\hat \sigma^2$ se hace más grande y por lo tanto el error estándar de la regresión lineal, los coeficientes se pone peor.