Interpretación del gráfico en su caso
Nota: El eje "y" no siempre es el riesgo relativo, como en el ejemplo de la viñeta de la dlnm
paquete. Este es sólo el caso de su ejemplo, porque utilizaron datos de mortalidad y modelos de regresión de Poisson. En su marco, el coeficiente de regresión exponencial de los modelos de Poisson $RR=\exp(\hat{\beta})$ es el riesgo relativo. Esto es análogo a la exponenciación de los coeficientes de regresión en la regresión logística, que es el odds ratio.
¿Puedo seguir utilizando el modelo?
Sí, todavía se puede utilizar ese modelo.
Resumamos lo que hace:
- Se utilizan B-splines cúbicos naturales como funciones base en lugar de polinomios para modelar la relación entre temperatura y $\mathrm{CO}_{2}$ (
arglag
con opción type="ns"
en lugar de type="poly"
)
- Se supone que el efecto de la temperatura es no lineal, ya que se especifica
argvar
como splines. Una cosa importante que hay que saber para la interpretación de los gráficos es que la función crossbasis
centra automáticamente los valores en la media del predictor (es decir, la temperatura media) si no se especifica lo contrario. Este es el valor de referencia con el que se comparan posteriormente las predicciones en los gráficos.
- Se consideran los rezagos hasta 12 (opción
lag=12
en crossbasis
). (Por cierto: ¿Por qué suprimen las advertencias?)
- Se calcula un MLG con errores gaussianos y la función de enlace de identidad, lo que equivale a una regresión lineal simple (OLS). Podría haber utilizado el
lm
en su lugar.
La trama que ha proporcionado se interpreta de la siguiente manera: El eje x es el desfase.
Interpretación de los valores del eje Y: El eje Y representa los cambios en $\mathrm{CO}_{2}$ asociada a un aumento de 10, 20 o 30°C en comparación con la temperatura media. Si el cambio previsto es 0, significa que un aumento de la temperatura no está asociado a un aumento de $\mathrm{CO}_{2}$ en comparación con $\mathrm{CO}_{2}$ concentración a temperatura media: La predicción $\mathrm{CO}_{2}$ la concentración es la misma en $\bar{x}_{Temp}+z$ grados (donde $z$ es cualquier cantidad, digamos 10 o 20 grados) y a la temperatura media $\bar{x}_{Temp}$ .
Esto significa que para un aumento de la temperatura de 10°C, la temperatura en el lag 0 (en la misma hora) aumenta el $\mathrm{CO}_{2}$ concentración en comparación con la temperatura media. Porque usted especificó cumul=TRUE
en crosspred
Los efectos son acumulativos. Los efectos acumulativos de un aumento de 10°C son casi inexistentes después de 4 horas en comparación con la temperatura media. Esto sugiere que los efectos no acumulativos son negativos en los rezagos 1-4 y nulos a partir de entonces.
Para los aumentos de temperatura de 20 o 30°C, los efectos acumulados en el $\mathrm{CO}_{2}$ son menores en las primeras 1-4 horas en comparación con $\mathrm{CO}_{2}$ a la temperatura media. Al igual que con los aumentos de temperatura de 10°C, los efectos acumulados son prácticamente inexistentes después de 4 o 5 horas. De nuevo: $\mathrm{CO}_{2}$ Las concentraciones son las mismas a la temperatura media y a un aumento de la temperatura de 20 o 30°C después de 4 o 5 horas.
Creo que un gráfico de contorno sería más fácil de interpretar. Prueba el siguiente código:
plot(cp, xlab="Temperature", col="red", zlab="CO2", shade=0.6,
main="3D graph of temperature effect")
Interpretación del ejemplo dado en la viñeta del dlnm packge
En primer lugar, algo sobre modelos de retardo distribuido . Tienen la forma:
$$ Y_{i}=\alpha + \sum_{l=0}^{K}\beta_{j}x_{t-l} + \text{other predictors} +\epsilon_{i} $$ donde $K$ es el desfase máximo y $x$ es un predictor. Esto se acaba de ajustar utilizando una regresión lineal múltiple. Así que el coeficiente $\beta_{1}$ estimaría el efecto de $x_{t-1}$ del día anterior en $Y_{t}$ . En esencia, se incluyen simultáneamente en el modelo múltiples rezagos de los predictores. Obviamente, esto tiene el problema de que los predictores rezagados están muy correlacionados (autocorrelación).
Un método más avanzado son modelos de retardo distribuido polinómico . Tiene la misma fórmula básica que la anterior, pero la función impulso-respuesta se ve obligada a situarse en un polinomio de grado $q$ ( enlace a un documento para Stata):
$$ \beta_{i} = a_{0} + a_{1}i + a_{2}i^2 +\ldots+a_{q}i^q $$ donde $q$ es el grado del polinomio y $i$ la longitud del retraso. Otra formulación es $$ \beta_{i} = a_{0} + \sum_{j=1}^{q}a_{j}f_{j}(i) $$
Dónde $f_{j}(i)$ es un polinomio de grado $j$ en la longitud del retardo $i$ . Una buena introducción a la dlnm
y los modelos de retardo distribuido polinómico se pueden encontrar aquí .
Estos modelos se utilizan a menudo en los estudios sobre la contaminación atmosférica y la salud porque la contaminación atmosférica tiene efectos retardados en los resultados de salud.
Veamos este gráfico del viñeta de la dlnm
paquete (página 13):
El grado de los polinomios fue $q=4$ en este caso por lo que la línea verde es un polinomio de 4º grado. El eje Y es el riesgo relativo (RR) estimada mediante regresión de Poisson y el eje x el retardo considerado. El riesgo relativo tiene la siguiente interpretación: Las personas que estuvieron expuestas tienen un $(RR-1)\cdot100\%$ mayor/menor probabilidad de obtener el resultado (por ejemplo, muerte, cáncer de pulmón, etc.) en comparación con las personas que no estuvieron expuestas. Si $RR>1$ esto significa una asociación positiva y si $RR<1$ significa una asociación de protección. A $RR=1$ significa que no hay asociación. Vemos que por cada aumento de $\textrm{PM}_{10}$ en 10 unidades ( $\mu \mathrm{g}/m^{3}$ ), hay un $(1.001-1)\cdot100\%=0.1\%$ aumento del riesgo de morir en el lag 0 (es decir, el mismo día de la exposición). Curiosamente, la exposición de hace unos 9 días es protector: un aumento del 10 $~\mu \mathrm{g}/m^{3}$ se asocia a un disminuido riesgo de morir en comparación con las personas con 10 unidades menos de exposición. También podemos ver que la exposición de 15 días antes no influye (es decir $RR\approx1$ ).
Veamos el riesgo relativo acumulado:
Es lo mismo que antes, pero los efectos se acumulan a lo largo del tiempo (es decir, se suman todas las contribuciones de los rezagos hasta el rezago máximo). La línea roja comienza en el mismo punto que la línea verde del primer gráfico (es decir $\approx1.001$ ). Podemos ver que las personas que han estado expuestas durante cinco días tienen un riesgo acumulado mayor de aproximadamente $(1.005-1)\cdot100\%=0.5\%$ de morir en comparación con las personas no expuestas. Como la línea verde va por debajo del riesgo relativo de $1$ después de un retraso de unos 5 días, la asociación acumulada después de 15 días es casi $1$ . Esto significa que los efectos protectores de $\textrm{PM}_{10}$ a partir del retraso 5 han compensado los efectos perjudiciales de los retrasos anteriores. Que esto sea científicamente razonable es otra cuestión.
3 votos
Bienvenido. He revisado este documento: cran.r-project.org/web/packages/dlnm/vignettes/dlnmOverview.pdf Y en la página 12, último párrafo está escrita la explicación, pero no entendí también. Por favor, compruebe si la figura de la página 13 (1a) es lo que usted está hablando (si es así, se puede utilizar como un ejemplo a su pregunta).
5 votos
@user26221 tu pregunta es insondablemente críptica. André te ha hecho un servicio al identificar al menos el paquete de la que hablas. ¿A qué función has llamado? ¿A qué figura se refiere? ¿Qué aspecto tiene? ¿Qué pretende conseguir?
0 votos
@Andre Silva ¡Muchas gracias por tu ayuda! No puedo subir una imagen ya que no tengo suficiente reputación, lo que hace que mi pregunta sea difícil de ver. Siento las molestias.
0 votos
@Glen_b Perdón por esta pregunta poco clara. No puedo subir una imagen y me parece difícil describirla. ¿Está mejor ahora?
1 votos
@user26221 He cambiado la parte relativa a la interpretación de los gráficos. No sabía que la función
crossbasis
centra el predictor en su media y lo utiliza como valor de referencia. Para que quede claro: el eje Y es el cambio previsto de $\mathrm{CO}_{2}$ para un aumento de $z$ grados en comparación con la temperatura media .1 votos
Usuario26221 tu pregunta se ve mejorada, pero todavía hay formas que no parecen tener sentido. Tu pregunta habla de que el riesgo relativo es negativo en tus datos, pero no veo ninguna salida que sugiera que lo sea. ¿Qué te hace decir que el RR es negativo?
0 votos
@COOLSerdash De acuerdo, gracias. Ahora veo que lo tratas en tu respuesta. ¿Debería borrar ese comentario (y este), crees?
0 votos
@Glen_b Sí, borrémoslas (yo también borraré las mías).
0 votos
@COOLSerdash ¡Muchas gracias! En mi comando glm no he puesto la familia de distribución. ¿Podría dar alguna sugerencia sobre la configuración de la distribución aquí? Estoy probando con una distribución gaussiana, sin embargo, el resultado no es tan bueno como no poner nada.
1 votos
Si no se establece la familia de distribución de errores en
glm
se toma el valor por defecto, que es una distribución gaussiana con la función de enlace de identidad. Esto es equivalente a una regresión lineal normal (véase el punto 4 de mi respuesta). Así queglm
sin opciones es lo mismo quelm
. ¿Qué familia que debe depende de los datos. Creo que una distribución gaussiana es razonable en este caso.