Considere un conjunto aleatorio de números que se distribuyen normalmente:
x <- rnorm(n=1000, mean=10)
Nos gustaría conocer la media y el error estándar de la media, así que hacemos lo siguiente:
se <- function(x) { sd(x)/sqrt(length(x)) }
mean(x) # something near 10.0 units
se(x) # something near 0.03 units
¡Genial!
Sin embargo, supongamos que no sabemos necesariamente que nuestra distribución original sigue una distribución normal. Transformamos los datos en logaritmos y realizamos el mismo cálculo del error estándar.
z <- log(x, base=10)
mean(z) # something near 1 log units
se(z) # something near 0.001 log units
Genial, pero ahora tenemos que hacer una retrotransformación para obtener nuestra respuesta en unidades NO logarítmicas.
10^mean(z) # something near 10.0 units
10^se(z) # something near 1.00 units
Mi pregunta: ¿Por qué, para una distribución normal, el error estándar difiere dependiendo de si se ha calculado a partir de la propia distribución o si se ha transformado, calculado y retrotransformado? Nota: las medias salieron iguales independientemente de la transformación.
¡EDIT #1: En última instancia, estoy interesado en calcular una media y los intervalos de confianza para los datos no distribuidos normalmente, así que si usted puede dar alguna orientación sobre cómo calcular el 95% de CI en los datos transformados incluyendo la forma de volver a transformar a sus unidades nativas, se lo agradecería!
FIN DE EDICIÓN #1
EDIT #2: He intentado utilizar la función cuantil para obtener los intervalos de confianza del 95%:
quantile(x, probs = c(0.05, 0.95)) # around [8.3, 11.6]
10^quantile(z, probs = c(0.05, 0.95)) # around [8.3, 11.6]
Por lo tanto, eso converge en la misma respuesta, lo cual es bueno. Sin embargo, el uso de este método no proporciona el mismo intervalo exacto utilizando datos no normales con tamaños de muestra "pequeños":
t <- rlnorm(10)
mean(t) # around 1.46 units
10^mean(log(t, base=10)) # around 0.92 units
quantile(t, probs = c(0.05, 0.95)) # around [0.211, 4.79]
10^(quantile(log(t, base=10), probs = c(0.05, 0.95))) # around [0.209, 4.28]
Qué método se consideraría "más correcto". Supongo que se elegiría la estimación más conservadora.
Como ejemplo, ¿informaría de este resultado para los datos no normales (t) como si tuviera una media de 0,92 unidades con un intervalo de confianza del 95% de [0,211, 4,79]?
FIN DE EDICIÓN #2
Gracias por su tiempo.
1 votos
El SE es la SD dividida por la raíz cuadrada de N. No sólo N.
3 votos
Gracias. He solucionado ese problema. Sin embargo, el problema que tengo sigue siendo el mismo.