9 votos

Es realista para todas las variables a ser muy importante en un modelo de regresión múltiple?

Quiero retroceder la economía de combustible en el desplazamiento del motor, tipo de combustible, 2 vs 4 ruedas caballos de fuerza, el manual frente a la transmisión automática y el número de las velocidades. Mi conjunto de datos (enlace) contiene los vehículos de 2012-2014.

  • fuelEconomy en millas por galón
  • engineDisplacement: tamaño del motor en litros
  • fuelStd: 1 para gases de 0 para el diesel
  • wheelDriveStd: 1 de 2 ruedas motrices, 0 para tracción a las 4 ruedas
  • hp: caballos de fuerza
  • transStd: 1 Automática, 0 manual
  • transSpeed: Número de velocidades

R-código:

reg = lm(fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + hp + 
                       transStd + transSpeed, data = a)
summary(reg)
Call:
lm(formula = fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + 
    hp + transStd + transSpeed, data = a)

Residuals:
     Min       1Q   Median       3Q      Max 
-10.2765  -2.3142  -0.0655   2.0944  15.8637 

Coefficients:
                    Estimate Std. Error t value Pr(>|t|)    
(Intercept)        48.147115   0.542910  88.683  < 2e-16 ***
engineDisplacement -3.673549   0.091272 -40.248  < 2e-16 ***
fuelStd            -6.613112   0.403989 -16.370  < 2e-16 ***
wheelDriveStd       2.778134   0.137775  20.164  < 2e-16 ***
hp                 -0.005884   0.001008  -5.840 5.86e-09 ***
transStd           -0.351853   0.157570  -2.233   0.0256 *  
transSpeed         -0.080365   0.052538  -1.530   0.1262    
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1

Residual standard error: 3.282 on 2648 degrees of freedom
  (1 observation deleted due to missingness)
Multiple R-squared:  0.7802,    Adjusted R-squared:  0.7797 
F-statistic:  1566 on 6 and 2648 DF,  p-value: < 2.2e-16
  1. Los resultados son realistas o estoy haciendo algo mal aquí como la mayoría de las variables son altamente significativas estadísticamente?
  2. Son otros de los modelos de mejor uso para este propósito?
  3. Es un resultado útil para la interpretación?

6voto

Sean Hanley Puntos 2428

@AntoniParelleada ha hecho un buen trabajo, demostrando algunos de los modelo estándar de las técnicas de diagnóstico que puede utilizar para evaluar el modelo. Deduzco que su principal preocupación es que "la mayoría de las variables están altamente estadísticamente significativo".

Yo no veo que usted necesita para estar preocupados acerca de que, de por sí. Desde su salida veo que el modelo tiene un F-statistic: 1566 on 6 and 2648 DF. Eso significa que usted está montando $6$ parámetros para $6$ variables y he a $2655$ de los datos. Esto le da una enorme cantidad de poder estadístico. Bajo el supuesto de que exista alguna relación entre las variables y la respuesta, que no es completamente trivial, usted debe obtener un resultado significativo. Estoy más sorprendido que otra cosa (es decir, transSpeed) no es significativo.

Tal vez tu pregunta está motivada por la creencia de que, desde la perspectiva teórica, algunos variable debe ser ajenos a fuelEconomy y por lo tanto está sorprendido de que es significativo. (Si eso fuera cierto, sin embargo, habría sido inusual que se ha incluido en el modelo.) Pero un resultado significativo, no significa necesariamente que una covariable tiene un efecto en la respuesta, por lo que no necesariamente tiene que ser un error de tipo I. Debido a que sus datos son casi ciertamente de observación, que son sólo la detección marginales de las asociaciones. Es decir, los vehículos de tracción delantera, por ejemplo, pueden también suelen ser distintos de los de la rueda trasera de la unidad de autos de otras formas aparte de que las ruedas de la potencia de transmisión y otros de las otras variables incluidas en el modelo. Por lo tanto, el coeficiente de wheelDriveStd medir la asociación entre éste y todos los unincluded variables correlacionadas con ella y fuelEconomy. Por lo que puede ser razonable para que sea significativo, incluso si sabíamos de la física / ingeniería que las ruedas de la potencia de transmisión no está relacionado con la eficiencia del combustible.

6voto

Antoni Parellada Puntos 2762

Un diagrama de dispersión de la matriz con el loess curvas y valores de correlación (valores absolutos) puede ser un buen punto de partida:

enter image description here

Podemos notar aquí la posibilidad de relación cuadrática de fuelEconomy conspiraron contra ambos lineDisplacement y hp, lo cual se refleja en una Nike swoosh en apariencia de los residuales de la parcela. Sería interesante investigar la presencia de una interacción entre estos términos.

enter image description here

Esta falta de linealidad es también evidente si tenemos que ejecutar una regresión lineal de fuelEconomy contra linearDisplacement (resultados similares se pueden obtener con hp). Observe la línea roja...

enter image description here

Este efecto puede ser parcialmente rectificada hacer el modelo más complejo, y la introducción de un modelo cuadrático:

enter image description here

El nuevo modelo tiene un ajuste de R-cuadrado valor más alto ($0.8205$) que la primera ($0.7798$).


La naturaleza dicotómica de la fuelStd y wheeldriveStd simplemente mover la media de los valores previstos, y, en efecto, son ficticios codificados de las variables o factores. Esto es también evidente en la inicial diagrama de dispersión, pero puede ser visualizado con diagramas de caja:

enter image description here


Un punto final en el diagnóstico es la presencia de altos puntos de apalancamiento, que vale la pena considerar:

enter image description here

Qué concluye? Nada categórico. Tal vez sólo para enfatizar la importancia de conspirar en la comprensión del conjunto de datos y cualquier modelo que se le impuso.

5voto

Bruce ONeel Puntos 391

Sé muy poco acerca de la mecánica y la física, pero la primera cosa que me gustaría ver es la regresión de los diagnósticos, en particular, los diagramas de residuos vs valores ajustados, por lo que queremos que haya ningún patrón general.

Ha ajustado un modelo lineal, de modo que cada covariable tiene una asociación lineal con fuelEconomy . Es esto apoyado por el subyacente mecánicas y físicas de la teoría ? Puede haber alguna relación no lineal(s) ? Si es así, entonces usted podría considerar la posibilidad de modelos no lineales términos, la transformación de ciertas variables, o usted podría considerar el uso de un modelo aditivo. Incluso si las asociaciones son plausiblemente lineal dentro de su conjunto de datos, ser muy cautelosos a la hora de extrapolar los resultados más allá de su límite de datos.

2voto

nic ferrier Puntos 183

La respuesta a tu primera pregunta depende de su marco teórico, cómo el estado de las hipótesis acerca de la relación entre variables dependientes e independientes, y cómo interpretar los resultados. En su propio, la obtención de la relación estadísticamente significativa para la mayoría de las variables no dicen nada acerca de cómo realista de sus resultados.

Por lo tanto, si estos resultados de aspecto sospechoso (basado en su conocimiento previo), puede ejecutar algunas pruebas de diagnóstico para la regresión. Podría ser una violación de los supuestos del modelo y otros problemas (por ejemplo, los valores atípicos). De hecho, siempre es útil para ejecutar estas pruebas para evaluar su modelo de regresión. Puesto que usted está utilizando R, se puede comprobar car paquete que proporciona un número de funciones para las pruebas de diagnóstico. Aquí usted puede encontrar las diapositivas del curso en la regresión de diagnóstico por uno de los autores (y el creador) de car paquete, John Fox. Usted puede comprobar su libro sobre el tema (1991). Kabacoff (2011) también se discute la regresión de diagnóstico y cómo utilizar R funciones (incluidos los de car paquete) y la interpretación de los resultados (p.188-200). Creo que después de estas pruebas de diagnóstico, es mejor evaluar los resultados y cómo utilizables son.


Fox, J. (1991). Regresión De Diagnóstico. Newbury Park, Londres, Nueva Delhi: Sage Publications.

Kabacoff, R. I. (2011). R en Acción: análisis de Datos y gráficos con R. Shelter Island: Manning.

También:

Fox, J., & Weisberg, S. (2011). Diagnóstico de Problemas en los Lineales y los Modelos Lineales Generalizados. En Un R Compañero de la aplicación de la Regresión (2ª ed., p 285-328). Los Angeles: Sage Publications.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X