10 votos

¿La transformación logarítmica mitigará siempre la heteroscedasticidad?

¿La transformación logarítmica mitigará siempre la heteroscedasticidad? Porque el libro de texto afirma que la transformación logarítmica suele reducir la heteroscedasticidad. Por lo tanto, quiero saber en qué casos no disminuirá la heteroscedasticidad.

4 votos

Comience con cualquier datos homocedásticos. Aplicar un logaritmo. Obviamente no puede obtener menos heteroscedástico, así que echa un vistazo. Usa los datos que quieras.

0 votos

5 votos

Si la varianza del error es proporcional al nivel de la variable, la transformación logarítmica puede ayudar. No es una aspirina de transformación, no lo cura todo

21voto

AdamSane Puntos 1825

No; a veces lo empeora.

La heteroscedasticidad en la que la dispersión es casi proporcional a la media condicional tenderá a mejorar si se toma el log(y), pero si no aumenta con la media a un ritmo cercano (o más), entonces la heteroscedasticidad a menudo empeorará con esa transformación.

plot of two data sets, one with spread proportional to mean, which shows improvement when taking log(y) and the second with spread going the other way, which gets worse after taking logs

Porque la toma de registros "arrastra" los valores más extremos de la derecha (valores altos), mientras que los valores del extremo izquierdo (valores bajos) tienden a estirarse hacia atrás:

enter image description here

esto significa que los márgenes se reducirán si los valores son grandes, pero pueden estirarse si los valores ya son pequeños.


Si se conoce la forma aproximada de la heteroscedasticidad, a veces se puede elaborar una transformación que haga aproximadamente constante la varianza. Esto se conoce como transformación estabilizadora de la varianza es un tema estándar en la estadística matemática. Hay una serie de entradas en nuestro sitio que se refieren a las transformaciones estabilizadoras de la varianza.

Si la dispersión es proporcional a la raíz cuadrada de la media (varianza proporcional a la media), entonces una transformación de raíz cuadrada -la transformación estabilizadora de la varianza para ese caso- tenderá a hacerlo mucho mejor que una transformación logarítmica; la transformación logarítmica hace "demasiado" en ese caso. En el segundo gráfico, la dispersión disminuye a medida que aumenta la media, y entonces la toma de logaritmos o de raíces cuadradas la empeoraría. (Resulta que la potencia de 1,5 en realidad lo hace razonablemente bien para estabilizar la varianza en ese caso).

0 votos

(+1) Pero quizás ayudaría ser un poco más específico donde dices "Heteroskedasticidad donde el difundir es casi proporcional a la media condicional...", para dejar claro si te refieres a la "escala cuadrada" (varianza) o a la escala original (DS lo que sea), como aclaraste un poco más tarde para la transformación raíz cuadrada

0 votos

@silv Gracias. En mi mente no era ambiguo si la palabra dispersión se refiere a las unidades originales de X o a las unidades al cuadrado - para mí era sólo unidades originales. Sin embargo, podría referirse a cualquier medida común de la dispersión de los puntos (desviación media, IQR, desviación absoluta mediana, s.d., etc.). Para incluir cosas como la varianza, yo habría dicho "dispersión" en lugar de dispersión. Sin embargo, está claro que es posible que otras personas lo entiendan de forma diferente a la mía. ¿Conoces otra palabra que se refiera sólo a medidas de distancia típica entre observaciones que pueda sustituirla? ... ctd

0 votos

ctd ... Me gustaría evitar escribir un ensayo cada vez que quiera mencionar ese concepto, se hace demasiado difícil de seguir, realmente quiero un plazo corto. ¿Crees que podría decir "escala"?

3voto

Ingolifs Puntos 16

Según mi experiencia, cuando los datos tienen forma de cono y están sesgados (lognormales o de otro tipo), la transformación logarítmica es la más útil (véase más adelante). Este tipo de datos suele provenir de poblaciones de personas, por ejemplo, usuarios de un sistema, donde habrá una gran población de usuarios ocasionales poco frecuentes y una pequeña cola de usuarios frecuentes.

He aquí un ejemplo de datos en forma de cono:

x1 <- rlnorm(500,mean=2,sd=1.3)
x2 <- rlnorm(500,mean=2,sd=1.3)
y <- 2*x1+x2
z <- 2*x2+x1

#regression of unlogged values

fit <- lm(z ~ y)
plot(y,z,main=paste("R squared =",summary.lm(fit)[8]))
abline(coefficients(fit),col=2)

enter image description here

Tomando los logaritmos de y y z se obtiene :

#regression of logged values

fit <- lm(log(z) ~ log(y))
plot(log(y),log(z),main=paste("R squared =",summary.lm(fit)[8]))
abline(coefficients(fit),col=2)

enter image description here

Tenga en cuenta que al hacer la regresión sobre los datos registrados cambiará la forma de la ecuación del ajuste de $y=ax+b$ a $log(y) = alog(x)+b$ (o alternativamente $y=x^a e^b$ ).

Más allá de este escenario, yo diría que nunca está de más intentar graficar los datos registrados, incluso si no hace que los residuos sean más homocedásticos. A menudo revela detalles que no se verían de otro modo o extiende/comprime los datos de forma útil

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X