7 votos

¿Que residuos a analizar cuando se transforma la variable dependiente?

Estoy corriendo una regresión lineal múltiple donde la variable dependiente está transformada sqrt. Según entiendo, los residuos de la regresión son diferentes de los residuos calculados como diferencia entre la variable transformada de espalda y resultados del modelo ajustado.

¿Para el áspero análisis residual (normalidad, independencia, Heteroskedasticidad,...), debo usar la originales residuales (transformadas) o "back-transformado residuos"? ¿O deben comportarse del mismo modo ambos conjuntos de residuos?

10voto

Richard Hardy Puntos 6099

Para el análisis residual, debe utilizar los residuos obtenidos de la regresión. No hay transformación de espalda es necesario. Esto es porque usted quiere asegurarse de que su regresión es válida (eso él satisface los supuestos subyacentes) que es especie de un problema "mecánico", el tema de la no materia. Así ves la regresión y sus residuos directamente, no a alguna transformación de ella.

4voto

trish Puntos 31

Usted puede ser mejor ajuste de un modelo lineal generalizado en lugar de un "simple" modelo lineal y el análisis de los residuos de la GLM lugar. Este procedimiento y un par de buenas razones para hacerlo son establecidos en esta respuesta. GLMs tener más de un tipo de residual, pero hay una gran cantidad de literatura sobre el análisis de ellos.

En caso de que se resisten a la idea de cambiar de MCO a ML, o no te decides a imponer la distribución de hipótesis sobre la respuesta, considere la posibilidad de que una regresión OLS es equivalente a un GLM que asume una distribución normal de respuesta y la identidad de la función de enlace.

Por otra parte, los modelos de regresión (generalizada o no) describa una media condicional, pero la realización de predicciones y, a continuación, desactiva la transformación de las predicciones no, en general, producir una media condicional de la onu-respuesta transformada. En su caso, $E(\sqrt{y}) \neq \sqrt{E(y)}$.


(editar/actualizar) Considere la posibilidad de una respuesta $y$ y su transformación $y'=\sqrt{y}$. Que encaja en el modelo de regresión $$y'=\beta_0 + \beta x + \varepsilon$$ que, si $\operatorname{E}(\varepsilon|x)=0$ (como suponemos por OLS), es equivalente a la modelo $$\operatorname{E}(y'|x) = \operatorname{E}(\sqrt{y}|x) = \beta_0 + \beta x$$

El problema es que $\left(\operatorname{E}(\sqrt{y}|x)\right)^2 \neq \operatorname{E}(y|x)$ en general. Afortunadamente, en este caso en particular podemos avanzar sin hacer suposiciones adicionales, apelando a la fórmula $\operatorname{V}(Z) = \operatorname{E}(Z^2) - \left(\operatorname{E}(Z)\right)^2 \implies \operatorname{E}(Z^2) = \operatorname{V}(Z) + \left(\operatorname{E}(Z)\right)^2$, por lo que

$$\operatorname{E}(y|x) = \operatorname{V}(\sqrt{y}|x) + \left(\operatorname{E}(\sqrt{y}|x)\right)^2$$

y por lo tanto

$$ \widehat{y} = \widehat{\sigma^2} + \left(\widehat{y'}\right)^2 $$

En general, sin embargo, usted tendrá que hacer algunos más suposiciones. Si usted asume que $(y|x) \sim Normal(\beta_0 + \beta x, \sigma^2)$, lo que está implícito en la OPERACIÓN, usted puede generalmente se derivan de la transformación mediante la aplicación de la Jacobiana de la Gaussiana PDF, y tomando su expectativa. Con un registro de transformadas de respuesta, por ejemplo, el original de la escala de respuesta de la variable sigue una log-normal de distribución, por lo que la correspondiente transformación sería el $\widehat{y} = e^{\widehat{y'} + \frac{\widehat{\sigma^2}}{2}}$. Este particular (y muy común) en caso de que se demostró muy bien en David Giles blog.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X