He conjunto de datos que contiene 365 observación de tres variables, a saber, pm
, temp
y rain
. Ahora quiero comprobar ser el comportamiento de pm
en respuesta a los cambios en las otras dos variables. Mis variables son:
-
pm10
= Respuesta (dependiente) -
temp
= variable predictora (independiente) -
rain
= variable predictora(independiente)
La siguiente es la matriz de correlación para los datos de mi:
> cor(air.pollution)
pm temp rainy
pm 1.00000000 -0.03745229 -0.15264258
temp -0.03745229 1.00000000 0.04406743
rainy -0.15264258 0.04406743 1.00000000
El problema es que cuando yo estaba estudiando la construcción de modelos de regresión, estaba escrito que el aditivo método es comenzar con la variable que está más altamente relacionados con la variable de respuesta. En mi conjunto de datos rain
está altamente correlacionada con la pm
(en comparación con el temp
), pero el mismo tiempo es una variable ficticia (lluvia=1, no hay lluvia=0), por lo que ahora tengo ni idea de donde debo empezar. Adjunto dos imágenes con la pregunta: La primera es un diagrama de dispersión de los datos, y la segunda imagen es un diagrama de dispersión de pm10
vs rain
, yo también soy incapaz de interpretar el diagrama de dispersión de pm10
vs rain
. ¿Alguien me ayuda ¿cómo empezar?