6 votos

La vida después de la transformación Box-Cox

Supongamos que tenemos un conjunto de medidas de alguna cantidad en algunas unidades de medida. También tenemos un buen modelo que se basa en gran medida en las propiedades de la distribución gaussiana. El modelo está hecho a medida para datos en algunas unidades de medida específicas con algún significado físico detrás (como vatio, ohmio, etc.). Resulta que la distribución de los datos no sigue exactamente la distribución normal y tiene algunas características no deseadas (como la asimetría). Aplicamos la popular transformación Box-Cox y obtenemos un conjunto de datos con una distribución más o menos normal. El problema ahora es que tenemos logaritmos, potencias, etc. de las medidas originales, lo que contradice nuestro bonito modelo.

La pregunta es: ¿qué se puede hacer en una situación así? ¿Tengo que cambiar el modelo para que pueda manejar los nuevos datos? Y en general, si lo he entendido todo bien, ¿por qué la gente qué estudiar datos transformados que han perdido su significado físico? Porque, al fin y al cabo, lo más probable es que haya que volver a las unidades de medida originales.

6 votos

¿Afirma, por ejemplo, que un ohmio tiene un significado físico privilegiado que, digamos, 1/ohmio no tiene? (Esto no es cierto: 1/ohmio también tiene un significado físico, en términos de conductancia en lugar de resistencia). A menudo, un parámetro Box-Cox bien elegido revela un significado físico que no aparecía en la formulación original.

1 votos

Si el modelo se basa en la física y carece de sentido tras las transformaciones, entonces hay que eliminar el supuesto de normalidad.

0 votos

@whuber, sí, estoy totalmente de acuerdo contigo, por supuesto, 1/ohmio tiene su propio significado físico. Lo que trataba de decir es que, por ejemplo, si te interesa la estatura humana y la mides directamente, ¿para qué te puede servir el logaritmo o alguna potencia de tus medidas? Has sustituido el objeto de tu investigación por algo completamente distinto.

1voto

Zizzencs Puntos 1358

En primer lugar, si te refieres a un modelo de regresión lineal, no supone la datos se distribuyen normalmente, asume que el error estimado por los residuos se distribuye normalmente (de hecho, debería ser iid $\mathcal{N}(0,\sigma)$ ).

En segundo lugar, si se incumple esa suposición y desea conservar las unidades originales, puede utilizar otra forma de regresión: hay una gran variedad de modelos de regresión robusta, modelos loess, modelos spline, etc.

0 votos

Lo siento, debería haber explicado mejor el contexto. Por modelo no me refería a un modelo de regresión lineal, sino a una formulación matemática de un sistema físico. En otras palabras, existe una ecuación $f(a, b, c, d)$ que describe cómo evoluciona el sistema y se supone que uno de los argumentos es incierto, digamos $a \sim \mathcal{N}(\mu, \sigma^2)$ por lo que tenemos su valor nominal, $\mu$ y alguna desviación, $\sigma$ de él.

1 votos

@Peter, si los errores no son Normales los remedios que sugieres pueden no ayudar, o no ser necesarios. Por ejemplo, si la media se especifica correctamente y los errores tienen una varianza constante, la normalidad no es un problema para la inferencia de parámetros en la media (véase, por ejemplo, McCullagh y Nelder). (Véase, por ejemplo, McCullagh y Nelder) El ajuste de una representación spline de una covariable ayuda a que la media sea "menos errónea", pero no hace nada con respecto a la varianza no constante. La "regresión robusta" (no el uso de errores estándar robustos) proporciona robustez a los datos erróneos, pero puede reducir la influencia de los puntos de datos buenos más informativos.

1voto

guest Puntos 1851

Parece que su modelo es de esta forma; $$Y_i|x_i = f(x_i, \beta) + \epsilon_i,$$ donde $Y_i$ denota el $i$ Resultado medido, $x_i$ es un vector de covariables para ese resultado (es decir, circunstancias experimentales), que con parámetros (desconocidos) $\beta$ determina el valor esperado $f(x_i, \beta)$ por esa observación. El $\epsilon_i$ son los términos de error, que describen todo lo que afecta a $Y_i$ no capturado por $f(x_i, \beta)$ - es decir, errores experimentales.

Antes de entrar en el análisis, siempre es bueno preguntarse "¿por qué quiere hacer este análisis?". La respuesta a esta pregunta determina hasta qué punto debe preocuparse por la normalidad o si es necesaria una transformación. Supongamos, como es habitual, que desea hacer una inferencia sobre el valor de $\beta$ . Si cree que $f(x_i, \beta)$ recoge el valor medio de $Y_i$ correctamente, y usted cree que $Var(\epsilon_i)$ es el mismo para todas las mediciones, entonces se puede utilizar la regresión lineal clásica para hacer inferencias sobre el valor de $\beta$ . A pesar de lo que aconsejan muchos libros de texto, usted no necesitan la Normalidad aquí; en tamaños de muestra razonables, sus intervalos de confianza y pruebas estarán calibrados de forma casi perfecta.

Si aún desea realizar inferencias, pero no cree en la varianza constante, utilice estimaciones robustas del error estándar. Si no cree que la media sigue $f(x_i, \beta)$ o que la varianza es constante, las estimaciones robustas del error estándar siguen proporcionándole una inferencia precisa sobre la línea de mejor ajuste de la formulario $f(x_i, \beta)$ donde "mejor ajuste" significa "mínimos cuadrados". Y si no crees que la media sigue $f(x_i, \beta)$ o que la línea de mejor ajuste de esta forma es algo útil de conocer, siempre se puede ajustar una media más flexible - representaciones spline de covariables $x_i$ son una buena forma de hacerlo. Absolutamente ninguno de los métodos enumerados requiere Normalidad - o transformaciones de la $Y_i$ .

Entonces, ¿cuándo exigimos normalidad? Si quiere hacer predicciones, de nuevas $Y_i$ para la mayoría de los métodos necesitará un modelo (aunque no es necesario que asuma la normalidad). Si desea comparar modelos, necesitará algunos modelos, pero eso es una tautología. Si el tamaño de la muestra es pequeño, la inferencia basada en modelos sobre $\beta$ puede ser el único enfoque viable, pero entonces es probable que no tenga forma de evaluar si su suposición de normalidad (o lo que haya supuesto) es razonable.

¿Cuándo necesitamos a Box-Cox? Si tenemos poca idea de la forma de $f(x_i, \beta)$ , pero cree que los errores en torno a $f(x_i, \beta)$ "debería" ser Normal, entonces Box-Cox puede ayudar a encontrar una forma mejor para $f(x_i, \beta)$ . Pero depende de que exista una Normalidad subyacente, en el modelo "correcto", y esto es difícil de justificar en muchas situaciones.

En resumen, en lugar de ocuparse de transformaciones difíciles de justificar, se puede hacer mucho con un simple modelo medio. Si las unidades de medida originales le ayudan a usted (y a sus colegas) a pensar en lo que les dicen los datos, recomiendo aferrarse a esas unidades, si es posible.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X