13 votos

Expresar las respuestas en términos de unidades originales, en datos transformados en Box-Cox

Para algunas mediciones, los resultados de un análisis se presentan adecuadamente en la escala transformada. Sin embargo, en la mayoría de los casos, es conveniente presentar los resultados en la escala de medición original (de lo contrario, el trabajo carece más o menos de valor).

Por ejemplo, en el caso de los datos transformados en logaritmos, surge un problema de interpretación en la escala original porque la media de los valores registrados no es el logaritmo de la media. Tomar el antilogaritmo de la estimación de la media en la escala logarítmica no da una estimación de la media en la escala original.

Sin embargo, si los datos transformados por el logaritmo tienen distribuciones simétricas, se mantienen las siguientes relaciones se mantienen (ya que el logaritmo preserva el orden):

$$\text{Mean}[\log (Y)] = \text{Median}[\log (Y)] = \log[\text{Median} (Y)]$$

(el antilogaritmo de la media de los valores logarítmicos es la mediana en la escala original de medidas).

Así que sólo puedo hacer inferencias sobre la diferencia (o la relación) de las medianas en la escala de medición original.

Las pruebas t de dos muestras y los intervalos de confianza son más fiables si las poblaciones son aproximadamente normales con desviaciones estándar aproximadas, por lo que podemos sentirnos tentados a utilizar el Box-Cox para que se cumpla el supuesto de normalidad (también creo que es una transformación estabilizadora de la varianza).

Sin embargo, si aplicamos las herramientas t a Box-Cox datos transformados, obtendremos inferencias sobre la diferencia de medias de los datos transformados. ¿Cómo podemos interpretarlas en la escala de medida original? (La media de los valores transformados no es la media transformada). En otras palabras, tomar la transformada inversa de la estimación de la media, en la escala transformada, no da una estimación de la media en la escala original.

¿Puedo también hacer inferencias sólo sobre las medianas en este caso? ¿Existe una transformación que me permita volver a las medias (en la escala original)?

Esta pregunta se publicó inicialmente como un comentario aquí

6voto

AdamSane Puntos 1825

Si quiere hacer inferencia sobre las medias en la escala original, podría considerar el uso de la inferencia que no utiliza un supuesto de normalidad.

Sin embargo, ten cuidado. La simple comparación directa de las medias mediante, por ejemplo, el remuestreo (ya sea mediante pruebas de permutación o bootstrapping) cuando las dos muestras tienen varianzas diferentes puede ser un problema si su análisis asume que las varianzas son iguales (y las varianzas iguales en la escala transformada serán varianzas diferentes en la escala original si las medias difieren). Estas técnicas no evitan la necesidad de pensar en lo que se está haciendo.

Otro enfoque a considerar si está más interesado en la estimación o predicción que en la prueba es utilizar una expansión de Taylor de las variables transformadas para calcular la media y la varianza aproximadas después de volver a transformar - donde en la expansión de Taylor habitual se escribiría $f(x+h)$ , ahora escribes $t[\mu + (Y-\mu)]$ donde $Y$ es una variable aleatoria con media $\mu$ y la varianza $\sigma^2$ que vas a transformar de nuevo usando $t()$ .

Si se toman las expectativas, el segundo término desaparece, y la gente suele tomar sólo el primer y el tercer término (donde el tercero representa una aproximación al sesgo de sólo transformar la media); además, si se toma la varianza de la expansión al segundo término, el primer término y los primeros términos de covarianza desaparecen - porque $t(\mu)$ es una constante, lo que nos deja con una aproximación de un solo término para la varianza.

--

El caso más fácil es cuando se tiene normalidad en la escala logarítmica, y por tanto una lognormal en la escala original. Si se conoce la varianza (lo que ocurre muy raramente en el mejor de los casos), se pueden construir ICs y PIs lognormales en la escala original, y se puede dar una media predicha a partir de la media de la distribución de la cantidad relevante.

Si está estimando tanto la media como la varianza en la escala logarítmica, puede construir log- $t$ (intervalos de predicción para una observación, por ejemplo), pero su escala original log- $t$ no tiene ningún momento . Así que la media de una predicción simplemente no existe.

Hay que pensar muy bien a qué pregunta se quiere responder.

3voto

John with waffle Puntos 3472

Si quiere hacer inferencias específicamente sobre la media de la variable original, no utilice la transformación de Box-Cox. OMI Las transformaciones de Box-Cox son más útiles cuando la variable transformada tiene su propia interpretación, y la transformación de Box-Cox sólo le ayuda a encontrar la escala adecuada para el análisis - esto resulta ser el caso con sorprendente frecuencia. Dos exponentes inesperados que encontré de esta manera fueron 1/3 (cuando la variable de respuesta era el volumen de la vejiga) y -1 (cuando la variable de respuesta era las respiraciones por minuto).

La transformación logarítmica es probablemente la única excepción. La media en la escala logarítmica corresponde a la media geométrica en la escala original, que es al menos una cantidad bien definida.

2voto

Senseful Puntos 116

Bien 3186-2860 = 326. Eso es casi una décima parte de 3186, pero 3186/9 = 354. Pero 326 está más cerca de 318,6 que de 354, así que yo optaría por 9/10 en lugar de 8/9.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X