8 votos

Por qué $Y$ ¿debe transformarse antes que los predictores?

Ambas respuestas en estos hilos, un y dos afirman que $Y$ debe transformarse antes de aplicando cualquier otra transformación a los predictores. En efecto, Weisberg El capítulo sobre transformaciones se centra más en el VD que en los predictores, y lo mismo ocurre con la página del manual del paquete de R powerTransform().

Sin embargo, sabemos que la normalidad de la distribución de la VD no es un requisito en OLS para estimar los coeficientes BLUE y, aunque los residuos no se distribuyan estrictamente de forma normal, OLS sigue siendo un estimador razonable .

Entonces, ¿por qué el énfasis en la transformación $Y$ ? Hay un par de razones por las que creo que es preferible no transformar $Y$ En primer lugar, hace que la relación de los IVs sea más difícil de leer y, en segundo lugar, en la predicción, requiere una retrotransformación del valor estimado al original $Y$ escala. Dependiendo de lo que hagas esto puede ser un problema.

5voto

AdamSane Puntos 1825

La transformación de X no afecta a la forma de la distribución condicional, ni a la heteroscedasticidad, por lo que la transformación de X sólo sirve para tratar las relaciones no lineales. (Si está ajustando modelos aditivos, podría servir para ayudar a eliminar la interacción, pero incluso eso es mejor dejarlo a la transformación de Y)

Un ejemplo en el que transformar sólo X tiene sentido:
enter image description here

Si ese -la falta de ajuste de la media condicional- es tu principal problema, entonces transformar X puede tener sentido, pero si estás transformando por la forma de la Y condicional o por la heteroscedasticidad, si estás resolviendo eso por transformación (no necesariamente la mejor opción, pero estamos tomando la transformación como un hecho para esta pregunta), entonces debes transformar Y de alguna manera para cambiarlo.

Consideremos, por ejemplo, un modelo en el que la varianza condicional es proporcional a la media:

Un ejemplo en el que transformar sólo X no puede resolver los problemas:
enter image description here

Mover los valores en el eje x no cambiará el hecho de que la dispersión es mayor para los valores de la derecha que para los de la izquierda. Si quieres arreglar esta varianza cambiante por transformación, tienes que aplastar los valores Y altos y estirar los valores Y bajos.

Ahora bien, si está considerando transformar Y, eso cambiará la forma de la relación entre la respuesta y los predictores... así que a menudo esperará transformar X también si quiere un modelo lineal (si era lineal antes de la transformación, no lo será después). A veces (como en el segundo gráfico anterior), una transformación de Y= hará que la relación sea más lineal al mismo tiempo, pero no siempre es así.

Si estás transformando tanto X como Y, querrás hacer primero Y, debido a ese cambio en la forma de la relación entre Y y X - normalmente necesitas ver cómo son las relaciones después de la transformación. La transformación posterior de X tendrá como objetivo obtener la linealidad de la relación.

Así que, en general, si vas a transformar algo, a menudo tienes que transformar Y, y si lo haces, casi siempre quieres hacerlo primero.

2voto

Owen Fraser-Green Puntos 642

Transformar Y inicialmente es un enfoque anacrónico del análisis de datos. Nuestros tatarabuelos lo hacían, así que ¿por qué no íbamos a hacerlo nosotros? Hay muchas razones y tu post que refleja que las suposiciones gaussianas se basan únicamente en los errores de un modelo y no en la serie Y es muy acertado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X