Parece que su modelo es de esta forma; $$Y_i|x_i = f(x_i, \beta) + \epsilon_i,$$ donde $Y_i$ denota el $i$ Resultado medido, $x_i$ es un vector de covariables para ese resultado (es decir, circunstancias experimentales), que con parámetros (desconocidos) $\beta$ determina el valor esperado $f(x_i, \beta)$ por esa observación. El $\epsilon_i$ son los términos de error, que describen todo lo que afecta a $Y_i$ no capturado por $f(x_i, \beta)$ - es decir, errores experimentales.
Antes de entrar en el análisis, siempre es bueno preguntarse "¿por qué quiere hacer este análisis?". La respuesta a esta pregunta determina hasta qué punto debe preocuparse por la normalidad o si es necesaria una transformación. Supongamos, como es habitual, que desea hacer una inferencia sobre el valor de $\beta$ . Si cree que $f(x_i, \beta)$ recoge el valor medio de $Y_i$ correctamente, y usted cree que $Var(\epsilon_i)$ es el mismo para todas las mediciones, entonces se puede utilizar la regresión lineal clásica para hacer inferencias sobre el valor de $\beta$ . A pesar de lo que aconsejan muchos libros de texto, usted no necesitan la Normalidad aquí; en tamaños de muestra razonables, sus intervalos de confianza y pruebas estarán calibrados de forma casi perfecta.
Si aún desea realizar inferencias, pero no cree en la varianza constante, utilice estimaciones robustas del error estándar. Si no cree que la media sigue $f(x_i, \beta)$ o que la varianza es constante, las estimaciones robustas del error estándar siguen proporcionándole una inferencia precisa sobre la línea de mejor ajuste de la formulario $f(x_i, \beta)$ donde "mejor ajuste" significa "mínimos cuadrados". Y si no crees que la media sigue $f(x_i, \beta)$ o que la línea de mejor ajuste de esta forma es algo útil de conocer, siempre se puede ajustar una media más flexible - representaciones spline de covariables $x_i$ son una buena forma de hacerlo. Absolutamente ninguno de los métodos enumerados requiere Normalidad - o transformaciones de la $Y_i$ .
Entonces, ¿cuándo exigimos normalidad? Si quiere hacer predicciones, de nuevas $Y_i$ para la mayoría de los métodos necesitará un modelo (aunque no es necesario que asuma la normalidad). Si desea comparar modelos, necesitará algunos modelos, pero eso es una tautología. Si el tamaño de la muestra es pequeño, la inferencia basada en modelos sobre $\beta$ puede ser el único enfoque viable, pero entonces es probable que no tenga forma de evaluar si su suposición de normalidad (o lo que haya supuesto) es razonable.
¿Cuándo necesitamos a Box-Cox? Si tenemos poca idea de la forma de $f(x_i, \beta)$ , pero cree que los errores en torno a $f(x_i, \beta)$ "debería" ser Normal, entonces Box-Cox puede ayudar a encontrar una forma mejor para $f(x_i, \beta)$ . Pero depende de que exista una Normalidad subyacente, en el modelo "correcto", y esto es difícil de justificar en muchas situaciones.
En resumen, en lugar de ocuparse de transformaciones difíciles de justificar, se puede hacer mucho con un simple modelo medio. Si las unidades de medida originales le ayudan a usted (y a sus colegas) a pensar en lo que les dicen los datos, recomiendo aferrarse a esas unidades, si es posible.
6 votos
¿Afirma, por ejemplo, que un ohmio tiene un significado físico privilegiado que, digamos, 1/ohmio no tiene? (Esto no es cierto: 1/ohmio también tiene un significado físico, en términos de conductancia en lugar de resistencia). A menudo, un parámetro Box-Cox bien elegido revela un significado físico que no aparecía en la formulación original.
1 votos
Si el modelo se basa en la física y carece de sentido tras las transformaciones, entonces hay que eliminar el supuesto de normalidad.
0 votos
@whuber, sí, estoy totalmente de acuerdo contigo, por supuesto, 1/ohmio tiene su propio significado físico. Lo que trataba de decir es que, por ejemplo, si te interesa la estatura humana y la mides directamente, ¿para qué te puede servir el logaritmo o alguna potencia de tus medidas? Has sustituido el objeto de tu investigación por algo completamente distinto.
0 votos
@Aniko, sí, probablemente, la suposición acerca de la normalidad de la fecha es incorrecta en tal situación, y uno debe empezar a buscar en alguna otra dirección de resolver el problema. En realidad estaba tratando de averiguar si hay una manera de mejorar, justificar el modelo existente sin cambiarlo drásticamente, con la única transformación de la entrada.
3 votos
El cubo de la altura estará estrechamente relacionado con el peso; el cuadrado de la altura, con la superficie de la piel (y, por tanto, con el riesgo asociado al contacto dérmico con los contaminantes); etc. Así pues, no es automático que un parámetro Box-Cox carezca de significado físico o carezca por completo de interpretabilidad. Dicho esto, evidentemente es prudente -aunque no necesario- limitar la elección del parámetro a valores que puedan ser susceptibles de interpretación.
0 votos
Otra posibilidad es utilizar distribuciones flexibles como éste para modelizar datos que presentan desviaciones de la normalidad. Por supuesto, su modelo podría ser mucho más complicado, pero C'est la vie. Existe un curioso "concepto psicológico leptokurtofobia por la "necesidad anormal de distribuciones normales".