4 votos

Manipulación de la variable de respuesta negativa "recuento" en el MLG

En un experimento, observo los cambios de los recuentos dentro de los parches. Los parches fueron revisados para los individuos en dos instancias de tiempo. Ahora quiero modelar los cambios de recuento utilizando glm. La variable de respuesta debe ser "cambios de recuento". La tabla muestra los recuentos en ambas instancias X1 y X2 y la variable de respuesta "cambios de recuento"

X1 X2 count.changes 2 3 1 6 2 -4 9 6 -3 3 5 2 ... ... ...

Ahora tengo valores negativos en la variable de respuesta. Supongo que los "cambios de recuento" son similares a los datos de recuento, así que optaría por la familia = poisson o binomial negativa. Sin embargo, éstas no aceptan valores negativos.

¿Existe una familia adecuada para los datos de recuento negativo? ¿O tengo que transformar los "cambios de recuento" añadiendo el mayor valor negativo? En el ejemplo, esto sería:

X1 X2 count.changes response.variable 2 3 1 5 6 2 -4 0 9 6 -3 1 3 5 2 6 ... ... ... ...

No estoy seguro de que ese desplazamiento de los valores de la respuesta altere la relación entre las variables de respuesta y las predictoras de forma no deseada.

EDITAR: distribución de count.changes : enter image description here

distribución de X1

enter image description here

distribución de X2

enter image description here

Ejemplo de conjunto de datos:

    before after count.change    A       B         C       D           E
1       2     1           -1  -73.66386 1.12297 0.0000000 0.49484 0.012012444
2       3     0           -3  -78.54737 1.09860 0.0000000 0.38795 0.000000000
3       5     1           -4  -87.46851 1.13953 0.0000000 0.41845 0.004190222
4       2     0           -2  -83.16745 1.08924 0.0000000 0.42918 0.042540444
5       4     2           -2  -98.11192 1.32984 0.0000000 0.39133 0.000000000
6       4     1           -3 -116.68226 1.48704 0.0000000 0.36865 0.000000000
7       6     4           -2 -100.83574 1.44667 0.0000000 0.44650 0.000000000
8       6     0           -6 -117.81459 1.52282 0.0000000 0.38637 0.000000000
9       5     3           -2  -77.58920 1.25844 0.0000000 0.42904 0.000000000
10      4     1           -3  -75.47254 1.29117 0.0000000 0.53546 0.000000000
11      2     2            0  -51.12028 1.15654 0.2320196 0.38042 0.039114667
12      3     4            1  -11.96222 0.77972 0.0000000 0.48967 0.000000000
13      5    14            9  -14.32683 0.80890 0.0000000 0.40357 0.000000000
14      4     3           -1  -14.03044 0.76689 0.0000000 0.45127 0.000684444
15      1     0           -1  -39.35372 0.96339 0.0000000 0.36786 0.006264889
16      5     4           -1  -33.59755 1.47835 0.0000000 0.41884 0.000000000
17      7     5           -2  -29.59998 0.94667 0.0000000 0.58748 0.000000000
18      7     4           -3  -29.92860 0.94667 0.0000000 0.47549 0.000000000
19      5    11            6  -30.62119 1.01140 0.0000000 0.45225 0.000250667
20      2     3            1  -32.37503 1.47939 0.0000000 0.45822 0.000000000
21      5     6            1  -30.25319 0.95854 0.0000000 0.40531 0.005102222
22      3     3            0  -45.37305 1.58951 0.0000000 0.42738 0.006071111
23      6     3           -3  -32.14011 1.03578 0.0000000 0.49664 0.000000000
24      4    11            7  -32.26345 1.09279 0.0000000 0.47644 0.000000000
25      1    10            9  -27.54697 1.52756 0.0000000 0.43494 0.000000000
26      5     1           -4  -29.37738 1.56800 0.0000000 0.48692 0.000330667
27      4     4            0  -28.19560 1.56667 0.0000000 0.38263 0.000000000
28      4     4            0  -30.77019 1.06207 0.0000000 0.37679 0.000000000
29      4     3           -1  -13.00000 1.50667 0.2540853 0.46256 0.000000000
30      3     8            5  -28.50843 1.57858 0.2442151 0.40611 0.012803556
31      5     1           -4  -13.61523 1.52880 0.3061796 0.35420 0.014352000
32      4     0           -4  -31.77617 1.60310 0.0000000 0.33756 0.052778667
33      4    13            9   13.07509 1.42068 0.0000000 0.44910 0.000000000
34      5     7            2   15.81565 1.39992 0.0000000 0.46189 0.004314667
35      4     1           -3  -30.04765 1.57937 0.0000000 0.38127 0.013093333
36      4     0           -4    4.17810 1.34359 0.0000000 0.45140 0.000000000
37      4     6            2   12.82054 1.35823 0.0000000 0.43623 0.000000000
38      5     4           -1   19.63489 1.36778 0.0000000 0.38262 0.000000000
39      5     8            3   18.97653 1.36992 0.0000000 0.37800 0.000000000
40      2     2            0    2.98668 1.44498 0.0000000 0.52990 0.008394667
41      3     0           -3  -10.77928 1.49237 0.0000000 0.50743 0.000000000
42      6     3           -3  -23.23726 1.53826 0.0000000 0.37960 0.000320000
43      4     6            2   35.19474 1.27506 0.0000000 0.52364 0.000000000
44      3     0           -3    1.76969 1.40331 0.0000000 0.37283 0.014035556
45      3     3            0  -10.15470 1.44785 0.0000000 0.41774 0.002908444
46      7     5           -2  -20.92787 1.48406 0.0000000 0.35011 0.000000000
47      7     7            0   23.56965 1.28907 0.0000000 0.50279 0.000000000
48      4     2           -2  -15.73690 1.44736 0.0000000 0.35660 0.008784000
49      4     7            3    7.23741 1.31921 0.0000000 0.55757 0.000000000
50      6     6            0    6.41245 1.34605 0.0000000 0.41018 0.000860444
51      4     1           -3   -0.81754 1.32847 0.0000000 0.37363 0.020424889
52      4     5            1  -28.74971 1.06974 0.0000000 0.43921 0.025356444
53      3     4            1  -27.24920 1.49740 0.0000000 0.59453 0.001034667
54      4     0           -4  -34.15566 1.44853 0.0000000 0.44954 0.000503111
55      0     5            5  -44.66309 1.58667 0.0000000 0.38294 0.000000000
56      0     0            0  -34.17692 1.48415 0.0000000 0.38474 0.003253333
57      0     0            0  -33.18329 1.48072 0.0000000 0.41356 0.000000000
58      0     0            0   -2.69132 1.33266 0.0000000 0.42874 0.000000000
59      1     0           -1  -29.26541 0.96274 0.0000000 0.58041 0.000000000
60      1     2            1  -46.88216 1.09876 0.0000000 0.43907 0.010076444
61      0     1            1  -45.25479 1.10303 0.0000000 0.36212 0.015326222
62      0     1            1  -47.97551 1.15333 0.0000000 0.50542 0.032936889

4voto

Nick Cox Puntos 22819

A menudo se puede invocar una familia de Poisson siempre que la media de la muestra sea positiva. Aunque la sintaxis de R que has probado no acepta tus datos, eso es una cuestión secundaria, ya que otros programas no insisten en que todos los datos sean positivos.

Pero la cuestión más importante es que si su media puede ser en principio negativa o nula, y como aquí los valores negativos no son en ningún sentido patológicos o excepcionales, ni Poisson ni la binomial negativa como familia de modelos suena adecuada en principio. Cualquiera de las dos suposiciones sería mucho más que una exageración en este caso y violaría los hechos básicos.

Una transformación como log(cambio + constante) es totalmente ad hoc y no respeta la simetría de la situación, en la que los ceros tienen un significado fijo y tanto los cambios positivos como los negativos tienen una referencia natural en el cero. Considere que sólo es una convención si representa el cambio como antes $−$ en lugar de después $−$ antes, sin embargo, estarías considerando transformaciones muy diferentes dependiendo de qué valores sean negativos. En otras situaciones en las que algunos cambios pueden ser muy grandes y/o los valores atípicos están presentes, las transformaciones de principio podrían ser la raíz cúbica, neglog (sign( $x$ ) log(1 + $|x|$ )) o el seno hiperbólico inverso. Todos tratan los valores negativos y positivos de forma simétrica.

Aunque parezca absurdo a primera vista, una familia normal o gaussiana podría funcionar tan bien como cualquiera. Dicha familia no se caerá por el simple hecho de que los datos sean discretos, sobre todo porque a lo sumo los términos de error (distribuciones condicionales) son idealmente normales o gaussianos (en lenguaje común: asumido ser normal; prefiero decir que no se están haciendo suposiciones, sino que hay condiciones ideales que se pueden mencionar).

Un modelo lineal generalizado con familia normal es, en el caso más sencillo, una regresión simple. He introducido tus datos en una rutina de regresión (resulta que está en Stata, pero evidentemente nada podría ser más fácil que hacer lo mismo en R) y los resultados parecen estadísticamente razonables, aunque científicamente puedan ser decepcionantes.

Utilizo los gráficos de probabilidad normal sólo como una forma consistente de visualizar las distribuciones marginales sin sugerir que la normal es algo más que una distribución de referencia (ciertamente ni siquiera un ajuste aproximado para C o E). Los valores en los ejes verticales de los gráficos que aparecen a continuación son el mínimo, la mediana y los cuartiles, y el máximo, los puntos esenciales en cualquier gráfico de caja: se etiquetan menos de 5 siempre que cualquier valor sea a la vez dos o más de esos niveles. Así, se puede trazar una caja con la mediana y los cuartiles en cada pantalla.

No veo nada realmente incómodo en las distribuciones: aunque hay un poco de margen para transformar algunas de ellas, sería retocarlas.

enter image description here

Los resultados de la regresión tienen un interés medio, pero eso es un comentario científico más que estadístico. Yo trabajo sobre todo con datos medioambientales, incluidos los climáticos, así que el contexto no me es ajeno. Naturalmente, aquí hay más decimales de los necesarios para la interpretación.

. regress countchange A B C D E

      Source |       SS           df       MS      Number of obs   =        62
-------------+----------------------------------   F(5, 56)        =      1.92
       Model |  98.4128194         5  19.6825639   Prob > F        =    0.1046
    Residual |  572.635568        56  10.2256351   R-squared       =    0.1467
-------------+----------------------------------   Adj R-squared   =    0.0705
       Total |  671.048387        61  11.0007932   Root MSE        =    3.1978

------------------------------------------------------------------------------
 countchange |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           A |   .0318856    .012429     2.57   0.013     .0069872     .056784
           B |  -2.372638   1.882372    -1.26   0.213    -6.143482    1.398205
           C |    1.94334   6.670093     0.29   0.772    -11.41846    15.30514
           D |  -.0276754   7.159342    -0.00   0.997    -14.36956    14.31421
           E |  -33.13973   38.90121    -0.85   0.398    -111.0682    44.78875
       _cons |   4.036898   4.576175     0.88   0.381    -5.130282    13.20408
------------------------------------------------------------------------------

Como comprobación gráfica de la regresión muestro el conjunto de gráficos de las variables añadidas -- en los que no veo nada extraño --

enter image description here

y un gráfico de residuos frente a los ajustados, en el que los que estén dispuestos a olfatear la heteroscedasticidad verán lo que quieren. Otros podrían sugerir un modelo modificado.

enter image description here

Todos los gráficos se hicieron también en Stata, aunque hay un guiño a un estilo común de R en la coloración del último.

Conclusión Independientemente del maravilloso principio de que las variables contadas suelen modelarse mejor de forma que respeten la estructura y el comportamiento del recuento, para este conjunto de datos la regresión simple funciona bastante bien, teniendo en cuenta.

EDITAR

La sugerencia de Roland sobre el grupo de los mayores residuales merece sin duda un seguimiento. Aquí he añadido identificadores al gráfico:

enter image description here

Una exploración más profunda muestra que el gráfico de A y B muestra dos grupos:

enter image description here

mientras que los resultados de la regresión parecen implicar que un modelo más delgado lo haría igual de bien:

. regress count A B E

      Source |       SS           df       MS      Number of obs   =        62
-------------+----------------------------------   F(3, 58)        =      3.29
       Model |  97.5391302         3  32.5130434   Prob > F        =    0.0269
    Residual |  573.509257        58  9.88809064   R-squared       =    0.1454
-------------+----------------------------------   Adj R-squared   =    0.1011
       Total |  671.048387        61  11.0007932   Root MSE        =    3.1445

------------------------------------------------------------------------------
 countchange |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           A |   .0321071   .0120583     2.66   0.010     .0079698    .0562444
           B |  -2.274775   1.757276    -1.29   0.201    -5.792346    1.242796
           E |  -30.31173   36.08795    -0.84   0.404    -102.5496    41.92614
       _cons |   3.920399   2.370811     1.65   0.104    -.8252939    8.666092
------------------------------------------------------------------------------

Esta vez también hay 7 residuos altos, en las mismas observaciones que antes. Como los dos predictores omitidos contribuyen poco, esto no es una sorpresa.

enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X