Yo no podía conseguir la edición de Veaux, Velleman & Bock (de las Estadísticas: los Datos y Modelos) que usted ha mencionado, sólo una versión anterior, por lo que los números de página no se corresponden pero supongo que
estamos principalmente relacionadas con el capítulo sobre la Re-expresión de los Datos.
Curiosamente, hace 25 años que probablemente me hubiera principalmente de acuerdo con su postura; ahora, sin embargo,
Me voy a limitar mis acuerdo cualificados de acuerdo en un ámbito más limitado
En el contexto de lo que discutir, mucho de los consejos está bien, pero apenas se presenta una completa
o imparcial de la imagen. (Sin embargo, es comprensible que podrían adoptar la postura que hacer puesto que la imagen completa implicaría muchos más conocimientos/experiencia que ellos tienen que trabajar en los niveles de primaria libro, y requeriría la introducción de métodos más allá del alcance de este libro.)
Ellos dan a los tres objetivos de la transformación - de la simetría, de la igualdad de la varianza y la linealidad (aproximado en cada caso)
Si desea utilizar la regresión lineal tal como es, para inferencial (pruebas de hipótesis, la Cei, y así sucesivamente), todas estas son consideraciones de una manera o de otra (la linealidad es el más importante), pero hay una serie de alternativas que no hacer estas suposiciones.
usted no tiene que asumir la normalidad para realizar inferencia utilizando mínimos cuadrados (puede utilizar una prueba de permutación para probar si el coeficiente es diferente de cero, por ejemplo, o el uso de un intervalo de confianza bootstrap)
usted podría hacer una diferente paramétrico de la asunción, pero que permanecen dentro de los mínimos cuadrados; si es que no es susceptible de cálculo algebraico siempre se puede usar la simulación para trabajar la situación.
no es necesario asumir varianza constante; con un marco de regresión hay maneras de ajustar los errores estándar de los parámetros de heterocedasticidad, por ejemplo, o usted puede hacer una suposición diferente acerca de heterocedasticidad, o puede crear un modelo de propagación, así como la media.
no es necesario el uso de mínimos cuadrados; hay muchas otras maneras de ajuste de modelos. Con GLMs por ejemplo, de que sólo son menos plazas en el normal.
usted no necesita linealidad, hay paramétricas (por ejemplo, GLMs, no lineal de mínimos cuadrados) y no paramétricos de alternativas (local de regresión lineal o spline modelos, por ejemplo)
Los tres objetivos que se presentan rara vez son compatibles en la práctica-por ejemplo, en la exponencial de la familia; considerar la distribución de Poisson, donde el asintótica symmetrizing transformar es 2/3 de la potencia, la varianza asintótica de estabilización de transformación de la raíz cuadrada, pero el vínculo natural (una transformación a menudo se utiliza para aproximadamente alineado de las relaciones en este ejemplo) es el registro (y usted no puede tomar registro de cero cargos; que generalmente no se utilizan para transformar los datos, pero de una manera ligeramente diferente), o la gamma (con la forma se mantiene constante),
donde el asintótica symmetrizing transformación es el cubo de la raíz, mientras que la correspondiente variación de estabilización de transformación es de registro.
De manera más general,
La varianza de estabilización $v(u)= \int^u \frac{C}{V(\mu)^\frac12} d\mu$
Symmetrizing $s(u)= \int^u \frac{C}{V(\mu)^\frac13} d\mu$ -- para exponencial de la familia
Así que para que los utilizados exponencial de la familia (y de hecho, por lo general, más en general) estos serán diferentes a menos que V es constante (que es para el caso Gaussiano)
En la sección de Veaux et al que he visto, las relaciones discutidas son
y las transformaciones consideradas son todos (Tukey) "el poder de la escalera" se transforma
Así:
Para las mediciones físicas, a menudo las transformaciones probable para enderezar las relaciones son evidentes
(tales como la inversión de las cantidades que son proporciones para conseguir la relación de la "derecha" de la variable que se está en relación con). De hecho, las consideraciones de las leyes de la física
o incluso sólo de las unidades a menudo conducen directamente a una transformación en el poder de la escalera
Por el dinero que variables relacionadas con una serie de consideraciones, a partir de cuestiones de escala (conclusiones no tienden
si usted se desplaza de dólares a centavos de dólar, por ejemplo) a las cosas de la manera como el interés y la inflación opera - multiplicatively -
todos tienden a llevar a que se considere la posibilidad de registro-se transforma.
Incluso cuando no se trata con medidas físicas o dinero, dado monótona de las relaciones,
a menudo un poder de transformación de X o Y se tienden a conducir a la recta relaciones
Así que, dado ese contexto, sí, a menudo la transformación puede ser razonablemente simple
Algunas cosas para meditar:
a) ¿Qué hace usted cuando usted sólo puede satisfacer razonablemente una de esas metas? (a veces usted puede ser capaz de hacer el bien en todos ellos a la vez, pero muchas veces no se puede)
b) ¿Qué pasa cuando las cantidades no son medidas físicas para que el formulario de transformaciones usted podría considerar son menos evidentes? ¿Qué pasa cuando las relaciones
no son monótonas?
c) ¿Cómo se puede interpretar para un público de una relación entre decir ${Y}^\frac13$$1/X_1^\frac12$$\log(X_2)$? La gente no está acostumbrada a pensar en términos de relaciones entre el cubo de raíces y de la inversa del cuadrado de las raíces.
d) Un valor esperado (/previsión media) para una transformación de la relación no copia de transformación. es decir,$g^{-1}(E[g(X)])\neq E(X)$.
Así que si quieres una cocina equipada valor o una media de predicción en la escala original no se puede simplemente invertir la transformación.
e) se deben tener en cuenta para la búsqueda de adecuados parámetros. por ejemplo, si consideramos la transformación de X o Y, o de ambos, incluso si sólo se considera el poder de las transformaciones que estamos efectivamente la optimización de nuestro modelo de dos parámetros adicionales; si no tenemos en cuenta de alguna manera por el impacto de que el modelo de elección de la optimización de nuestros modelos se ven mucho mejor que los que están en la muestra, nuestros otros parámetros tienden a estar sesgadas (fuera de cero), nuestros errores estándar será demasiado pequeño, y así sucesivamente.
Por comparación, uno puede modelar relaciones no lineales a través de la no lineal de mínimos cuadrados, o podríamos modelo de relaciones no lineales y heterocedasticidad en la escala original (por ejemplo, a través de GLMs o GAMs,
- donde la simetría es también no se supone). O se puede recurrir a diversas formas de de regresión no paramétrica (test no paramétrico de las relaciones entre y y X,
en lugar de no paramétrica de la distribución de hipótesis) y obtener los valores esperados en la escala original, de la cual las conclusiones
puede ser más fácil de explicar.
Así que yo diría que depende de lo que usted está modelado, y por qué, en quién es su audiencia, ¿qué herramientas están disponibles, y qué tipos de cosas que usted
quiero decir acerca de la relación.
La transformación puede ser útil, pero a menudo no es la mejor opción disponible, y no todo es tan simple como que el capítulo sugiere.