70 votos

¿Por qué se recomienda la transformación de raíz cuadrada para los datos de recuento?

A menudo se recomienda tomar la raíz cuadrada cuando se tienen datos de conteo. (Para algunos ejemplos sobre CV, véase la respuesta de @HarveyMotulsky aquí o la respuesta de @whuber aquí .) Por otro lado, al ajustar un modelo lineal generalizado con una variable de respuesta distribuida como Poisson, el logaritmo es el enlace canónico . Esto es algo así como tomar una transformación logarítmica de sus datos de respuesta (aunque más exactamente es tomar una transformación logarítmica de $\lambda$ el parámetro que rige la distribución de la respuesta). Por lo tanto, existe cierta tensión entre ambos.

  • ¿Cómo se concilia esta (aparente) discrepancia?
  • ¿Por qué la raíz cuadrada es mejor que el logaritmo?

58voto

AdamSane Puntos 1825

La raíz cuadrada es aproximadamente estabilizadora de la varianza para el caso de Poisson . Hay una serie de variaciones de la raíz cuadrada que mejoran las propiedades, tales como añadiendo $\frac{3}{8}$ antes de tomar la raíz cuadrada, o el Freeman-Tukey ( $\sqrt{X}+\sqrt{X+1}$ - aunque también suele ajustarse a la media).

En los gráficos siguientes, tenemos un Poisson $Y$ frente a un predictor $x$ (con una media de $Y$ un múltiplo de $x$ ), y luego $\sqrt{Y}$ vs $\sqrt{x}$ y luego $\sqrt{Y+\frac{3}{8}}$ vs $\sqrt{x}$ .

enter image description here

La transformación de la raíz cuadrada mejora algo la simetría, aunque no tanto como la $\frac{2}{3}$ potencia lo hace [1]:

enter image description here

Si se desea especialmente la cuasi-normalidad (siempre que el parámetro de Poisson no sea realmente pequeño) y no le importa/ puede ajustarse para heteroscedasticidad, intente $\frac{2}{3}$ poder.

El enlace canónico no suele ser una transformación especialmente buena para Poisson datos El logaritmo cero es un problema particular (otro es la heterocedasticidad; también puede haber asimetría a la izquierda incluso cuando no hay 0). Si los valores más pequeños no están demasiado cerca de 0, puede ser útil para linealizar la media. Es una buena "transformación" para la población condicional media de Poisson en varios contextos, pero no siempre de datos de Poisson. Sin embargo, si se quiere transformar, una estrategia común es añadir una constante $y^*=\log(y+c)$ que evita el $0$ problema. En ese caso deberíamos considerar qué constante añadir. Sin alejarnos demasiado de la cuestión que nos ocupa, los valores de $c$ entre $0.4$ y $0.5$ funcionan muy bien (por ejemplo, en relación con el sesgo en la estimación de la pendiente) en una gama de $\mu$ valores. Por lo general, sólo utilizo $\frac12$ ya que es simple, con valores alrededor de $0.43$ a menudo lo hacen un poco mejor.

En cuanto a por qué la gente elige una transformación en lugar de otra (o ninguna), eso es realmente una cuestión de lo que están haciendo para lograr.

[1]: Gráficos inspirados en los gráficos de Henrik Bengtsson en su folleto "Generalized Linear Models and Transformed residuos transformados". ver aquí (véase la primera diapositiva de la página 4). He añadido un poco de y-jitter y he omitido las líneas.

0 votos

+1, gracias por su ayuda. Deduzco que la raíz cuadrada (o ligeras variaciones) es mejor para normalizar y estabilizar la varianza del Poisson, mientras que el logaritmo es mejor para linealizar la media. Tu punto sobre el problema con $\log 0$ también es buena. Sin embargo, me parece contraintuitivo que la mejor transformación difiera entre estos dos contextos.

1 votos

OK, he estado pensando en lo que has puesto aquí, & aquí está mi síntesis: Las transformaciones óptimas difieren en estas 2 situaciones b/c lo que usted está tratando de lograr difiere. El sqrt es mejor para estabilizar la varianza y normalizar la distribución. El log mapea el intervalo $(0, +\infty)$ a $(-\infty, +\infty)$ que permite la transformación de la media, $\lambda$ para que sea lineal en los parámetros del modelo. El sqrt no tiene esta propiedad. Con un GLiM, no importa que la varianza no sea constante, ya que la distribución de la respuesta se establece como Poisson. ¿Es eso correcto?

2 votos

Lo que será lineal en los parámetros depende del modelo . Es perfectamente posible que esa linealidad esté en la escala original o en la escala de la raíz cuadrada o en alguna otra escala. Incluso la propiedad -útil/importante- de "mapear la línea real" no es exclusiva de la función logarítmica. La razón por la que el enlace logarítmico es "natural" es por la forma en que simplifica el MLG al tener un estadístico suficiente de $X'y$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X