1 votos

Transformación de datos específicos

Necesito ayuda con la transformación de datos. En la imagen de abajo la imagen superior izquierda muestra el histograma de la variable V6. Debido a que está muy sesgado hacia la derecha, he probado 3 formas de transformación, pero ninguna de ellas parece hacer que los datos sean más simétricos. ¿Hay alguna otra solución para esto? ¿Tal vez el cambio de las pausas o algo más?

Los datos son:

jefe de datos Cubierta del dosel = V6 91.30 61.50 91.40 92.00 93.20

Histogram of data

EDIT: Aquí están los datos:

Id  SqCones Ntrees  DBH TreeHeight  CanopyCover
Abern1  61  32  0.23    20.42   91.30
Abern2  4   4   0.27    15.20   61.50
Abern3  15  34  0.17    15.97   91.40
Abern4  9   22  0.23    22.42   92.00
Abern5  42  22  0.18    19.45   93.20
Abern6  4   21  0.23    23.07   93.50
Abern7  12  19  0.22    21.06   88.50
Abern8  27  15  0.26    18.82   88.00
Abern9  0   12  0.23    19.16   89.80
Abern10 4   9   0.12    6.38    73.30
Abern11 91  5   0.79    25.50   94.80
Abern12 20  12  0.20    12.02   94.20
Abern13 5   15  0.19    9.06    76.80
Abern14 14  42  0.15    8.82    77.20
Abern15 35  74  0.15    17.91   91.30
Abern16 11  23  0.15    15.93   92.20
Abern17 47  67  0.14    13.79   91.80
Abern18 17  33  0.17    14.60   88.60
Abern19 16  12  0.34    13.99   92.40
Abern20 0   7   0.40    16.16   85.20
Abern21 44  14  0.37    20.88   92.90
Abern22 18  23  0.23    15.54   91.50
Abern23 9   13  0.27    16.98   90.70
Abern24 16  7   0.32    19.20   89.00
Abern25 60  11  0.26    20.03   93.50
Abern26 3   7   0.29    15.87   91.90
Abern27 5   10  0.35    20.87   90.70
Abern28 5   11  0.31    21.55   90.40
Abern29 2   3   0.42    20.37   69.90
Abern30 32  11  0.33    18.27   92.60
Abern31 55  15  0.32    24.50   91.40
Abern32 3   11  0.34    19.12   89.20
QEFP33  18  14  0.35    22.98   87.60
QEFP34  0   13  0.27    16.11   54.40
QEFP35  11  7   0.35    22.26   93.10
QEFP36  0   22  0.23    15.55   90.20
QEFP37  6   18  0.33    20.98   93.60
QEFP38  4   18  0.27    19.21   93.10
QEFP39  0   9   0.35    24.12   84.40
QEFP40  48  11  0.37    22.68   86.50
QEFP41  7   16  0.26    21.27   91.10
QEFP42  2   11  0.35    21.70   80.70
QEFP43  3   12  0.35    21.48   83.30
QEFP44  2   8   0.35    21.87   77.30
QEFP45  21  9   0.33    21.65   80.00
QEFP46  22  9   0.32    23.32   88.00
QEFP47  4   12  0.36    22.77   81.10
QEFP48  1   28  0.22    18.53   93.80
QEFP49  3   30  0.19    16.19   84.80
QEFP50  25  30  0.18    19.47   87.20
QEFP51  57  36  0.17    17.08   89.60
QEFP52  12  11  0.26    21.36   87.80

2voto

Nick Cox Puntos 22819

De sus gráficos se desprende que tiene unas 50 medidas de porcentaje de cobertura. Los valores oscilan entre el 50% y el 100% aproximadamente. Es posible que algunos valores estén registrados como 100%. Es de suponer que los valores no pueden superar el 100% (si no es así, díganos lo contrario).

Tenga en cuenta, en primer lugar, que son sesgada a la izquierda no es un sesgo a la derecha.

En estadística, la etiqueta de la asimetría es la de la cola más larga: la terminología implica que se está mirando un histograma con el eje de magnitud horizontal. En este caso, lo estás, así que no hay problema.

Así que la raíz cuadrada, la raíz cúbica y el logaritmo no pueden ayudar. Esas son transformaciones para variables sesgadas hacia la derecha.

También hay un problema más sutil. En ese intervalo de dos veces, de unos 50 a unos 100, esas transformaciones son casi lineales, como muestran los gráficos de abajo. Así que cambiarán las unidades de medida, pero lo más importante es que no cambiarán mucho la forma de la distribución. Por eso -aunque no pueden ayudar- de hecho no hacen mucha diferencia y por eso los histogramas que muestran tienen todos más o menos la misma forma.

enter image description here

Es posible que una transformación logit ayude, o una potencia doblada.

¿Puede publicar los datos en bruto?

P.D. La normalidad, o lo que sea, es como mucho marginalmente relevante para estos datos acotados. Algunos análisis podrían ir mejor si se tuviera una distribución más simétrica, pero no más. Lo más importante es lo que se pretende hacer con los datos.

EDITAR al ver los datos:

Hay al menos dos preguntas agrupadas aquí:

  1. ¿Qué tipo de transformación simetriza mejor una variable como la cobertura de las copas de los árboles? Tenga en cuenta que, en principio, una variable de este tipo está acotada entre 0 y 100%. Sólo por esa razón, muchas distribuciones conocidas, incluida la normal, no pueden ajustarse a los datos en principio.

  2. ¿Qué tipo de escalas (incluidas, muy posiblemente, las escalas en las que llegan los datos) deben utilizarse para analizar una variable de respuesta en relación con diversos predictores, como la cubierta del dosel?

Estas preguntas no están tan relacionadas. Las responderé en orden inverso.

  1. Dado que SqCones es un recuento, yo optaría por la regresión de Poisson. Ignorando los otros predictores, una regresión de Poisson sobre CanopyCover parece razonable. En principio, esta relación podría proyectarse al 100% de cobertura; el gráfico muestra claramente que eso sería realmente una extrapolación.

enter image description here

No forma parte de la regresión de Poisson asumir que cualquier predictor se distribuye normalmente, o incluso simétricamente. Pero si nos sentimos un poco aprensivos acerca de la asimetría y de si tiene efectos secundarios, podríamos probar a transformarla para ver si marca la diferencia. Como el logit no está definido para el 100%, me siento indeciso a la hora de aplicarlo aquí, aunque todos los valores de cobertura están por debajo del 100%. Probé con la raíz cuadrada doblada, obtuve predicciones usando eso como predictor y luego grafiqué las predicciones sobre las predicciones anteriores:

enter image description here

No hay ninguna desventaja evidente en el uso de la escala original, ya que las predicciones se aproximan con y sin la transformación.

Para saber más sobre los poderes plegados, consulte ¿Cuál es la forma más adecuada de transformar las proporciones cuando son una variable independiente? (que da más referencias).

  1. Si tienes curiosidad por saber qué transformación puede hacer que esos datos de la cubierta sean más simétricos,

    • logit ayuda un poco, pero en principio hay que preocuparse por su inaplicabilidad a los datos que podría haber sido 100% (hay fudges para este último problema para los datos contados, pero no conozco un buen fudge aquí)

    • Las transformaciones más débiles, como la raíz cúbica plegada o la raíz plegada, ayudan, pero no mucho, pero al menos están definidas para el 100%.

    • para corregir la asimetría de la izquierda, existen en principio cuadrados o cubos (y perfectamente definidos para el 100%), pero tampoco ayudan mucho

    • podrías intentar, siguiendo la sugerencia de @whuber, trabajar en la transformación (100% $-$ cobertura de la marquesina), y mi opinión es que se podría acercar a la simetría, pero a costa de una medida que biológicamente es al revés (ojo también con el log 0 como problema de principio).

No he intentado introducir sus otras variables en el análisis. Para completar, mencionaré una pregunta no formulada,

  1. ¿Qué tipo de escalas (incluidas, muy posiblemente, las escalas en las que llegan los datos) deben utilizarse para analizar variables como la cubierta de copas como variable de respuesta en relación con diversos predictores?

El consejo más importante que tengo para este problema es que la distribución precisa de un predictor no suele importar mucho. Las distribuciones normales no son un objetivo: si lo fueran, apenas podríamos utilizar indicadores (0, 1) como predictores, que fallan estrepitosamente.

0voto

dmux Puntos 8

Gracias por la respuesta. ¡Logit suena bien! (PORQUE he oído hablar de eso antes;) Voy a probar eso.

¡gracias por la información en la izquierda-aspecto!

También hay un problema más sutil. En ese intervalo de dos veces, de unos 50 a unos 100, esas transformaciones son casi lineales, como muestran los gráficos siguientes. Así que cambiarán las unidades de medida, pero lo más importante es que no cambiarán mucho la forma de la distribución.

Pero qué significa que las transformaciones sean lineales, quiero decir que antes eran lineales ¿no?

0voto

dmux Puntos 8

It worked! -> lower right picture

¡Oh, sí, funcionó! Lo hice así: hist(CanopyLogit<-logit(red_squirrel$V6, percents=max(p, na.rm = TRUE) > 1, 0)) ¿Esta es una buena distribución normal? Supongo que sí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X