18 votos

Transformación posterior de un modelo de RLM

He obtenido un modelo de regresión lineal múltiple en la forma $$ \mathrm{log}(Y) = \beta_0 + \beta_1x_1 + \dots + \beta_4x_4 + \beta_5x_1x_2 + \dots + \beta_{10}x_3x_4 + \beta_{11}x_1^2 + \dots + \beta_{14}x_4^2 $$ desde el modelo que he obtenido algunos diagramas de contorno que, para una más inmediata interpretación, he de vuelta transformado en unidades originales (el uso de $10^{\tilde{y}}$).

Ahora mi pregunta es: ¿tengo que volver a transformar también los parámetros del modelo, los intervalos de confianza de los parámetros de sí mismos y el intervalo de predicción para nuevas respuestas? Cómo?

Creo que sería bueno volver a transformar, al menos, el RMSEP y RMSE con el fin de obtener una estimación en unidades originales de la media del error asociado con el modelo en la predicción y en el ajuste. Cómo?

Gracias.

35voto

Bill Puntos 3605

Esto se llama la re-transformación problema. Voy a hacer que su modelo un poco más simple para hablar de ello:

$\ln{Y} = \beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_3X_2^2 + \epsilon$

Ahora, ese modelo no hacer predicciones para $Y$, hace predicciones para $\ln{Y}$. Es tentador hacer predicciones para $Y$ solo tomando las predicciones para $\ln{Y}$ y exponentiating ellos como $\hat{Y}=\exp(\widehat{\ln{Y}})$. Esto está mal (es decir, sesgada), a pesar de que:

$\begin{align} \ln{Y} &= \beta_0 + \beta_1X_1 + \beta_2X_2 +\beta_3X_2^2 + \epsilon\\ Y &= \exp(\beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_3X_2^2)\exp(\epsilon)\\ \mathrm{E}\{ Y|X\} &= \exp(\beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_3X_2^2)\,\mathrm{E}\{\exp(\epsilon)|X\}\\ \hat{\mathrm{E}}\{ Y|X\} &= \exp(\widehat{\ln{Y}})\,\mathrm{E}\{\exp(\epsilon)|X\} \end{align}$

El mejor predictor de la $Y$ es su expectativa. Si podríamos concluir que $\mathrm{E}\{\exp(\epsilon)|X\}=1$, entonces podríamos exponentiate como usted está sugiriendo arriba. Pero la desigualdad de Jensen afirma que, desde la $\mathrm{E}\{\epsilon|X\}=0$,$\mathrm{E}\{\exp(\epsilon)|X\}>1$. Así, tenemos que utilizar algún tipo de ajuste. El ajuste se llama Duan la Borrosidad de Estimador. Es simplemente la media de la muestra de la exponentiated errores de predicción (residuos) a partir del modelo original, $(1/N)\sum \exp(e_i)$. Así que la forma correcta de volver a transformar a partir del registro del modelo de predicciones de Y es:

$$\hat{Y}_j = \exp(\widehat{\ln{Y}}_j) \cdot \frac{1}{N}\sum_{i=1}^N \exp(e_i)$$

A sus preguntas. En los parámetros, si usted necesita para volver a transformar depende de lo que estamos tratando de medir. El parámetro $\beta_2$ mide la cantidad que $Y$ va para arriba (en porcentajes) para una unidad de incremento en $X_1$. Por lo tanto, si $\beta_2=0.04$, que dice que $Y$ sube un 4% para cada uno de la unidad de $X_1$ va para arriba. Del mismo modo, para cada unidad de$X_2$, $Y$ sube $\beta_2+2\beta_3X_2$ por ciento.

Si desea medir la cantidad que $Y$ sube en unidades al $X_2$ sube por una unidad, entonces usted necesita para volver a transformar:

$\begin{align} Y &= \exp(\beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_3X_2^2)\exp(\epsilon)\\ \frac{\partial Y}{\partial X_1} &= \exp(\beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_3X_2^2)\exp(\epsilon)\beta_1\\ \hat{\mathrm{E}}\left\{ \frac{\partial Y}{\partial X_1} \right\} &= \exp(\widehat{\ln{Y}}) \cdot \frac{1}{N}\sum \exp(e_i) \cdot \beta_1 \end{align}$

Observe que la respuesta depende de a $\hat{Y}$, totalmente a diferencia de "regular" de la regresión. Usted debe esperar esto, sin embargo. El modelo es no lineal, por lo que la derivada depende del punto de evaluación. Para su más complicado modelo, usted tiene que tener cuidado de aplicar la regla de la cadena correctamente---que es, de donde he a $\beta_1$, tendrá un complicado expresión con $\beta$s y los poderes de los distintos $X$s y tal.

Para los intervalos de confianza, de nuevo, la pregunta es lo que estamos tratando de medir. Si usted es feliz con saber cuántos porcentajes $Y$ sube al $X_1$ va por uno, a continuación, la "normal" de los intervalos de confianza que se obtiene de la costumbre de regresión de salida están bien. Si usted quiere medir el número de unidades que $Y$ sube al $X_1$ va por uno, entonces es más complicado. En realidad, es muy complicado en ese caso--- - usted debe utilizar bootstrap para hacerlo. Usted puede usar algo que se llama el método delta, pero es un dolor.

Raíz del error cuadrático medio de la predicción es fácil de calcular, una vez que han re-transformada a la predicha $Y$:

$$\mathrm{RMSEP} = \sqrt {\frac{1}{N-1} \sum (\hat{Y}_i-Y_i)^2}$$

donde $\hat{Y}_i$ proviene de la fórmula anterior.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X