Según mi experiencia, cuando los datos tienen forma de cono y están sesgados (lognormales o de otro tipo), la transformación logarítmica es la más útil (véase más adelante). Este tipo de datos suele provenir de poblaciones de personas, por ejemplo, usuarios de un sistema, donde habrá una gran población de usuarios ocasionales poco frecuentes y una pequeña cola de usuarios frecuentes.
He aquí un ejemplo de datos en forma de cono:
x1 <- rlnorm(500,mean=2,sd=1.3)
x2 <- rlnorm(500,mean=2,sd=1.3)
y <- 2*x1+x2
z <- 2*x2+x1
#regression of unlogged values
fit <- lm(z ~ y)
plot(y,z,main=paste("R squared =",summary.lm(fit)[8]))
abline(coefficients(fit),col=2)
Tomando los logaritmos de y y z se obtiene :
#regression of logged values
fit <- lm(log(z) ~ log(y))
plot(log(y),log(z),main=paste("R squared =",summary.lm(fit)[8]))
abline(coefficients(fit),col=2)
Tenga en cuenta que al hacer la regresión sobre los datos registrados cambiará la forma de la ecuación del ajuste de $y=ax+b$ a $log(y) = alog(x)+b$ (o alternativamente $y=x^a e^b$ ).
Más allá de este escenario, yo diría que nunca está de más intentar graficar los datos registrados, incluso si no hace que los residuos sean más homocedásticos. A menudo revela detalles que no se verían de otro modo o extiende/comprime los datos de forma útil
4 votos
Comience con cualquier datos homocedásticos. Aplicar un logaritmo. Obviamente no puede obtener menos heteroscedástico, así que echa un vistazo. Usa los datos que quieras.
0 votos
Puede encontrar un ejemplo aquí: Alternativas al ANOVA unidireccional para datos heterocedásticos .
5 votos
Si la varianza del error es proporcional al nivel de la variable, la transformación logarítmica puede ayudar. No es una aspirina de transformación, no lo cura todo