La raíz cuadrada es aproximadamente estabilizadora de la varianza para el caso de Poisson . Hay una serie de variaciones de la raíz cuadrada que mejoran las propiedades, tales como añadiendo $\frac{3}{8}$ antes de tomar la raíz cuadrada, o el Freeman-Tukey ( $\sqrt{X}+\sqrt{X+1}$ - aunque también suele ajustarse a la media).
En los gráficos siguientes, tenemos un Poisson $Y$ frente a un predictor $x$ (con una media de $Y$ un múltiplo de $x$ ), y luego $\sqrt{Y}$ vs $\sqrt{x}$ y luego $\sqrt{Y+\frac{3}{8}}$ vs $\sqrt{x}$ .
La transformación de la raíz cuadrada mejora algo la simetría, aunque no tanto como la $\frac{2}{3}$ potencia lo hace [1]:
Si se desea especialmente la cuasi-normalidad (siempre que el parámetro de Poisson no sea realmente pequeño) y no le importa/ puede ajustarse para heteroscedasticidad, intente $\frac{2}{3}$ poder.
El enlace canónico no suele ser una transformación especialmente buena para Poisson datos El logaritmo cero es un problema particular (otro es la heterocedasticidad; también puede haber asimetría a la izquierda incluso cuando no hay 0). Si los valores más pequeños no están demasiado cerca de 0, puede ser útil para linealizar la media. Es una buena "transformación" para la población condicional media de Poisson en varios contextos, pero no siempre de datos de Poisson. Sin embargo, si se quiere transformar, una estrategia común es añadir una constante $y^*=\log(y+c)$ que evita el $0$ problema. En ese caso deberíamos considerar qué constante añadir. Sin alejarnos demasiado de la cuestión que nos ocupa, los valores de $c$ entre $0.4$ y $0.5$ funcionan muy bien (por ejemplo, en relación con el sesgo en la estimación de la pendiente) en una gama de $\mu$ valores. Por lo general, sólo utilizo $\frac12$ ya que es simple, con valores alrededor de $0.43$ a menudo lo hacen un poco mejor.
En cuanto a por qué la gente elige una transformación en lugar de otra (o ninguna), eso es realmente una cuestión de lo que están haciendo para lograr.
[1]: Gráficos inspirados en los gráficos de Henrik Bengtsson en su folleto "Generalized Linear Models and Transformed residuos transformados". ver aquí (véase la primera diapositiva de la página 4). He añadido un poco de y-jitter y he omitido las líneas.