11 votos

Cómo iniciar la construcción de un modelo de regresión cuando el más fuertemente asociado predictor es binario

He conjunto de datos que contiene 365 observación de tres variables, a saber, pm, temp y rain. Ahora quiero comprobar ser el comportamiento de pm en respuesta a los cambios en las otras dos variables. Mis variables son:

  • pm10 = Respuesta (dependiente)
  • temp = variable predictora (independiente)
  • rain = variable predictora(independiente)

La siguiente es la matriz de correlación para los datos de mi:

> cor(air.pollution)
               pm        temp       rainy
pm     1.00000000 -0.03745229 -0.15264258
temp  -0.03745229  1.00000000  0.04406743
rainy -0.15264258  0.04406743  1.00000000

El problema es que cuando yo estaba estudiando la construcción de modelos de regresión, estaba escrito que el aditivo método es comenzar con la variable que está más altamente relacionados con la variable de respuesta. En mi conjunto de datos rain está altamente correlacionada con la pm (en comparación con el temp), pero el mismo tiempo es una variable ficticia (lluvia=1, no hay lluvia=0), por lo que ahora tengo ni idea de donde debo empezar. Adjunto dos imágenes con la pregunta: La primera es un diagrama de dispersión de los datos, y la segunda imagen es un diagrama de dispersión de pm10 vs rain, yo también soy incapaz de interpretar el diagrama de dispersión de pm10 vs rain. ¿Alguien me ayuda ¿cómo empezar?

this is scatter-plot of my data

scatter plot of pm10 vs rain

17voto

Sean Hanley Puntos 2428

Muchas personas creen que se debe utilizar una estrategia de como empezar con el más altamente asociada a la variable y, a continuación, agregar variables adicionales en turnos hasta que uno no es significativo. Sin embargo, no hay ninguna lógica que obliga a este enfoque. Por otra parte, este es un tipo de 'avaro' de selección de variables / estrategia de búsqueda (cf., mi respuesta aquí: Algoritmos automáticos de selección de modelo). Usted no tiene que hacer esto, y realmente, usted no debe. Si desea conocer la relación entre pmy temp y rain, acaba de encajar en un modelo de regresión múltiple con las tres variables. Usted todavía tendrá que evaluar el modelo para determinar si es razonable y los supuestos se cumplen, pero eso es todo. Si quieres probar algunos a priori la hipótesis, puede hacerlo con el modelo. Si se desea evaluar el modelo de salida de la muestra, la precisión predictiva, usted puede hacer eso con la validación cruzada.

Usted no necesita realmente se preocupe acerca de la multicolinealidad. La correlación entre temp y rain aparece como 0.044 en la matriz de correlación. Que es una muy baja correlación y no debería causar problemas.

10voto

Aha Puntos 833

Mientras esto no directamente a la dirección de la que ya se reunieron conjunto de datos, otra cosa que usted podría intentar la próxima vez que usted está recogiendo datos como esto es para evitar la grabación de "lluvia" como un binario. Sus datos probablemente sería más informativo si usted, en cambio, mide la intensidad de lluvia (cm/hora), lo que le daría una variable se distribuye de forma continua (hasta su precisión de medición) a partir de 0...max_rainfall.

Esto le permitiría correlacionar no sólo "está lloviendo" a las otras variables, pero también "¿cuánto es que está lloviendo".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X