5 votos

Cómo tener un conocimiento del conjunto de datos utilizando regresiones en R

Tengo algunos datos: el resultado es la satisfacción y hay cuatro predictores, tres continuas (edad, peso, altura) y uno de los factores, se graduó de la escuela secundaria o no.

En R, he subido el conjunto de datos, y establecer X1X1 para la edad, X2X2 en peso , X3X3 para el factor y el X4X4 para la altura.

Quiero saber si existe evidencia de que graduarse de la escuela secundaria tiene un efecto sobre la satisfacción.

Yo sé que no puede simplemente mirar a lm(y~x3), porque tengo necesidad de considerar todas las posibilidades. Entonces, ¿cómo puedo tomar todos estos en cuenta? Cómo muchos de los modelos que debo comprobar? ¿Cuál es el enfoque general de este?

También, tendría que considerar la posibilidad de cualquier y todas las interacciones posibles?

Call:
lm(formula = y ~ x1 + x2 + x3 + x4)

Residuals:
    Min      1Q  Median      3Q     Max 
-18.506  -5.096   1.306   4.738  28.722 

Coefficients:
            Estimate     Std. Error      t value       Pr(>|t|)    
(Intercept) 140.1689      8.3191          16.849      2.77e-13 

x1           -1.1428     0.1904          -6.002       7.22e-06 

x2           -0.4699     0.1866           -2.518     0.0204 

x3yes         2.2259     4.1402            0.538     0.5968    

x4            1.2673     1.4922     0.849      0.4058    


Residual standard error: 9.921 on 20 degrees of freedom
Multiple R-squared:  0.8183,    Adjusted R-squared:  0.7819 
F-statistic: 22.51 on 4 and 20 DF,  p-value: 3.611e-07

8voto

eldering Puntos 3814

La cosa más importante a hacer es para que usted pueda comprobar si el modelo tiene sentido. Tiene ajuste de un modelo lineal a tres continuo predictores, usted necesita para asegurarse de que tiene sentido hacer lo que Usted debe buscar en diagramas de dispersión de age, heighty weight contra y, y ajustar los ajustes de estos predictores si es necesario.

Suponiendo que el montaje de estos predictores linealmente es razonable, el montaje del modelo completo con todos los cuatro predictores es una buena cosa que hacer.

Sólo tienes 25 puntos de datos. Si usted va en una larga búsqueda a través del espacio de todos los modelos (añadiendo y eliminando variables) tiene un riesgo extremadamente alto de falsos positivos. Así que, creo que no se necesita mucho para atrás seleccionar las variables; si lo desea, asegúrese de usar la cruz de validación para asegurarse de hacerlo, mejora el ajuste del modelo a lo invisible de datos.

La misma cosa se aplica a una búsqueda de interacciones, se tienen pocos datos, y se está corriendo un gran riesgo de falsos positivos.

Si usted desea hacer inferencias mediante el cálculo de intervalos de confianza, usted, además, debe comprobar que un gráco de los residuos frente a los valores ajustados de la modelo y asegúrese de que usted no ve ninguna patrones. Usted está mirando a ver si se parecen a ellos podría haber sido extraída de una distribución normal con varianza constante. Si esto se ve razonablemente consistente con yor de datos, entonces usted puede hacer inferencias acerca de la graduation parámetro mediante el modelo lineal

Coefficients:
            Estimate     Std. Error      t value       Pr(>|t|)    
(Intercept) 140.1689     8.3191          16.849        2.77e-13     
x1           -1.1428     0.1904          -6.002        7.22e-06     
x2           -0.4699     0.1866          -2.518        0.0204     
x3yes         2.2259     4.1402           0.538        0.5968        
x4            1.2673     1.4922           0.849        0.4058    

El x3 medidas de las variables de la graduación, y el parámetro se encuentra bien dentro del error de su estimación. Así pues, dado que todo lo anterior se verifica, los datos que utiliza para entrenar el modelo es que no sea incompatible con el efecto de la graduation ser indistinguible del ruido.

Gracias por lo que somos realmente capaces de juzgar sólo a partir de su instalación el modelo completo?

Mientras todas las salvedades que se cumplan, yo creo que la mejor manera de ir sobre esto es el ajuste del modelo completo, y hacer deducciones a partir de eso. Como he dicho, cualquier inferencia que dibujar a partir de un modelo de variable es probable que la selección pasan por casualidad.

Otra forma de pensar acerca de esto es que si usted va a través de un algoritmo de selección de variables, el estándar de los errores señalados en el modelo no son correctas, son en realidad mucho más grande de lo que se informó. Para estimar la verdadera errores estándar de las estimaciones de los parámetros bajo una selección / procedimiento de ajuste, usted tendría que utilizar anidada de la validación cruzada o un bootstrap + validación cruzada. Esta sería la unidad de sus datos muy, muy fina, y de incurrir en una gran cantidad de la varianza (usted está haciendo un montón de decisiones, cada uno tiene una oportunidad de estar equivocado). Sus errores estándar sería enorme.

-2voto

mat_geek Puntos 1367

Porque no puede ser que las dependencias entre las variables predictoras es posible que decir X1 parece significativo cuando X2 es la izquierda, sino por X1 y X2 son muy dependen X1 puede aparecer no significativo cuando X2 se incluye en el modelo. Con cuatro predictor variablesthere son 2^4 -1 posible que no esté vacía modelos. Como este es tan solo 15, no es difícil mirar a todos los subconjuntos. Si el número de variables eran mucho más grandes que un enfoque paso a paso debe ser adecuada. Si es posible, elija un modelo donde todos los coeficientes son significativos y si tiene 2 muy correlacionadas con las variables de asegurarse de que uno está excluida.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X