5 votos

Puedo utilizar el modelo lineal en cada variable para determinar qué variables son importantes?

Supongamos que tenemos un n*p de la matriz X y n*1 de la matriz Y, donde n es el número de muestras y p es el número de variables. p>>n. También supongo que este dato es de un biología experimento de campo. Mi objetivo es seleccionar a los potenciales biomarcadores (variables).

Sé que hay un montón de variables de selección de herramientas, tales como el procedimiento paso a paso, el criterio basado en métodos y otros métodos que se anidan con los algoritmos (random forest, PLS, SVM, etc.). Pero creo que el objetivo de estos métodos es construir un modelo para hacer una buena precisión de la predicción, SEGUIDO por decirle a la gente en este modelo, las variables que son relativamente importantes.

En mi opinión, porque mi objetivo no es predecir sino para seleccionar los posibles biomarcadores que será confirmado en experimentos adicionales, puede simplemente hacer la regresión lineal entre cada variable y y y ver que son importantes y que también tienen un alto R^2 puntuación?

Gracias!

Entiendo que esto no es una respuesta simple pregunta. Por favor proporcione una relativamente minuciosa descripción de su idea.

4voto

chahedous Puntos 43

Si su predictores (biomarcadores) son colinear, univariado de las regresiones pueden groseramente sobre / subestimar los tamaños del efecto, dependiendo del signo de la colinealidad y el signo del producto de sus tamaños del efecto. Esto se conoce como de la paradoja de Simpson, o en general, ya que se omite la variable de sesgo, como se mencionó anteriormente. Por lo tanto, no se recomienda este enfoque.

Yo no soy consciente de que una solución perfecta para p>>n caso, y tampoco creo que exista uno. Sin embargo, si el objetivo es dar prioridad a los predictores para las pruebas posteriores, y usted piensa que los efectos pueden ser bien expresado por relaciones lineales, yo iría a por un método de regularización, tales como la regresión ridge y lazo, y simplemente tomar las variables que salen con los efectos más fuertes - la ventaja más de la AIC-modelo basado en la selección es menor sensibilidad a la colinealidad en los predictores (porque predictores no se quitan).

4voto

Silvercode Puntos 438

No. El método propuesto se parece muy poco probable que produzca resultados útiles. El problema que yo anticiparía que es un montón de resultados positivos falsos.

Por ejemplo, supongamos que se desea predecir $y$ y tiene dos predictores $x$$z$. Vamos

$y = x + \epsilon_1$

$z = x + \epsilon_2$

A continuación, el método propuesto es probable que seleccionar tanto $x$$z$. Cualquier decente modelo lineal que involucra $x$ $z$ simultáneamente se llevará a ver que $z$ no es necesaria la presencia de $x$.

Esto puede sonar raro, pero a medida que agrega más variables a un modelo que es más probable que ya se han dado cuenta de todas las señales.

El resultado de esto es que usted puede tener que hacer un montón de adicional innecesaria de experimentos.

Yo sugeriría que el OP investigar LAZO de regresión. Esto se ajusta muy bien para $p \gg n$ problemas de regresión donde la variable es necesario realizar la selección. En general, mientras que imagino esta zona debería haber sido completamente desarrollado para modelos lineales, el $p \gg n$ selección de variables problema es todavía un área de investigación activa.


X = rnorm(1000)
Y = X + rnorm(1000)
Z = X + rnorm(1000)
summary(lm(Y ~ Z))

Call:
lm(formula = Y ~ Z)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.8207 -0.8326 -0.0109  0.8688  3.8545 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.02033    0.03998  -0.509    0.611    
Z            0.50815    0.02840  17.895   <2e-16 ***
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1

Residual standard error: 1.264 on 998 degrees of freedom
Multiple R-squared:  0.2429,    Adjusted R-squared:  0.2422 
F-statistic: 320.2 on 1 and 998 DF,  p-value: < 2.2e-16

summary(lm(Y ~ X + Z))

Call:
lm(formula = Y ~ X + Z)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.5276 -0.6879 -0.0111  0.6992  3.4331 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.021569   0.032455  -0.665    0.506    
X            1.028787   0.045233  22.744   <2e-16 ***
Z            0.001838   0.032047   0.057    0.954    
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1

Residual standard error: 1.026 on 997 degrees of freedom
Multiple R-squared:  0.5015,    Adjusted R-squared:  0.5005 
F-statistic: 501.6 on 2 and 997 DF,  p-value: < 2.2e-16

EDIT: Sobre si el método propuesto sería limpiar todos los verdaderos positivos. Yo sería dudoso.

En primer lugar, asumiendo que todos los verdaderos positivos fueron encontradas, a continuación, la propuesta de mecanismo de filtrado basado en $R^2$ estaría en problemas. Supongamos que hemos añadido a la verdad en nuestro ejemplo otra variable $q$ que no contribuyen mucho a total variación en $y$:

$y = x + 0.1q + \epsilon$

A continuación, $q$ a menudo tienen un menor$R^2$$z$. Así que usted no sería capaz de confía en tu ranking mecanismo.


> Q = rnorm(1000)
> Y = X + 0.1*Q + rnorm(1000)
> summary(lm(Y~X+Z+Q))

Call:
lm(formula = Y ~ X + Z + Q)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4460 -0.6397  0.0551  0.6146  3.6106 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 0.002512   0.032670   0.077 0.938719    
X           0.981008   0.047013  20.867  < 2e-16 ***
Z           0.015557   0.033436   0.465 0.641838    
Q           0.115547   0.032690   3.535 0.000427 ***
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1

Residual standard error: 1.03 on 996 degrees of freedom
Multiple R-squared:  0.487, Adjusted R-squared:  0.4855 
F-statistic: 315.2 on 3 and 996 DF,  p-value: < 2.2e-16

> summary(lm(Y~Z))

Call:
lm(formula = Y ~ Z)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.8912 -0.8182 -0.0121  0.8061  3.7114 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.03833    0.03915   0.979    0.328    
Z            0.51934    0.02785  18.645   <2e-16 ***
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1

Residual standard error: 1.238 on 998 degrees of freedom
Multiple R-squared:  0.2583,    Adjusted R-squared:  0.2576 
F-statistic: 347.6 on 1 and 998 DF,  p-value: < 2.2e-16

> summary(lm(Y~Q))

Call:
lm(formula = Y ~ Q)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.2620 -0.9772  0.0030  1.0116  4.7014 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  0.02539    0.04535    0.56    0.576  
Q            0.10861    0.04544    2.39    0.017 *
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1

Residual standard error: 1.433 on 998 degrees of freedom
Multiple R-squared:  0.005693,  Adjusted R-squared:  0.004696 
F-statistic: 5.714 on 1 and 998 DF,  p-value: 0.01702

También preveo que como el verdadero modelo para $y$ se hizo más compleja, por ejemplo,

$y = x_1 + x_2 + ... + x_n + q + \epsilon$

Luego de la regresión en $q$ solo terminaría hasta no ver el coeficiente significativo. La razón para esto es que la variación estructural en $y$ debido a $x$ involucrarte en nuestra estimación de que el ruido de la $\sigma^2$

La razón para esto es que la omisión de las verdaderas variables $x$ nuestra regresión del rendimiento empeora, el error cuadrático medio se hace más grande, $\hat \sigma^2$ se hace más grande y por lo tanto el error estándar de la regresión lineal, los coeficientes se pone peor.


0voto

Mohammed Nafie Puntos 23

Aristóteles dijo que "El todo es mayor que la suma de sus partes". Cada una de regresión lineal simple es simplemente la prueba de una parte. Sin embargo, me imagino que muchas enfermedades están asociadas con combinaciones de marcadores (la totalidad). Lo que realmente se preocupan por la combinación de los marcadores. Como resultado, el algoritmo puede no funcionar bien porque no son pruebas de la combinación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X