5 votos

Valor p global de Fisher frente a comparaciones por pares

Estoy haciendo comparaciones sobre las tasas de respuesta en tres sitios. A continuación figuran los recuentos de células

                        Frequency        |
                        Percent          |
                        Row Pct          |
                        Col Pct          |       0|       1|  Total
                        -----------------+--------+--------+
                        SITE1            |      7 |      2 |      9
                                         |   6.14 |   1.75 |   7.89
                                         |  77.78 |  22.22 |
                                         |   6.86 |  16.67 |
                        -----------------+--------+--------+
                        SITE2            |     95 |      9 |    104
                                         |  83.33 |   7.89 |  91.23
                                         |  91.35 |   8.65 |
                                         |  93.14 |  75.00 |
                        -----------------+--------+--------+
                        SITE3            |      0 |      1 |      1
                                         |   0.00 |   0.88 |   0.88
                                         |   0.00 | 100.00 |
                                         |   0.00 |   8.33 |
                        -----------------+--------+--------+
                        Total                 102       12      114

                             Fisher's Exact Test
                             ----------------------------------
                             Table Probability (P)       0.0179
                             Pr <= P                     0.0287

El valor p de Fisher muestra significación. Sin embargo, los valores p de Fisher individuales no son significativos cuando se realiza una comparación por pares (es decir, site1 vs. site2 , site2 vs. site3 y site1 vs. y site3 ). Creo que el tamaño de las muestras en site1 y site3 son relativamente bajos en comparación con site2 . Me pregunto cuál podría ser la razón y si es correcto utilizar la prueba exacta de Fisher en este caso.

7voto

jldugger Puntos 7490

Tienes razón en sospechar y tienes razón en que los problemas surgen de algunos de los bajos recuentos de células en este caso. Sin embargo, no hay nada malo en Prueba de Fisher sí mismo. Sólo hay que tener cuidado al interpretar sus resultados.

Repasemos los datos:

         0  1  Total 
Site 1   7  2 |    9
Site 2  95  9 |  104
Site 3   0  1 |    1
--------------+-----
Totals 102 12 |  114

La prueba de Fisher suma las probabilidades de todas las configuraciones de los datos que son (a) coherentes con los totales de filas y columnas y (b) tienen probabilidades más bajas que la tabla observada (bajo la hipótesis nula de no asociación columna-fila).

Supongamos que no se incluyera el único resultado del sitio 3. La prueba de Fisher, aplicada sólo a las dos primeras filas, da un valor p de $0.2123$ -lejos de pruebas "significativas" de cualquier asociación en los dos primeros sitios. Consideremos ahora el efecto de incluir ese único valor del sitio 3. Sólo hay dos formas de mantener el valor de $1$ para el total de esa fila: el $1$ aparece en la columna de la izquierda o en la de la derecha y un $0$ aparece en la otra entrada. Como los totales de las columnas son 102 y 12, la hipótesis nula sugiere que el $1$ deben aparecer en la columna de la izquierda con una frecuencia de $12/114$ y en la columna de la derecha con una frecuencia de $102/114$ . En realidad, el primer caso debilita la evidencia de una asociación fila-columna y, por tanto, tendería a elevar el valor p, mientras que el segundo caso -que es lo que se observa en realidad- refuerza la evidencia de una asociación y disminuye el valor p.

En este punto haré una observación incorrecta pero sugerente: si el valor p para la prueba de las dos primeras filas fuera realmente un probabilidad (de que la hipótesis nula sea cierta), podríamos actualizar esta probabilidad (en un sentido bayesiano) multiplicando las probabilidades. Las probabilidades de los datos del sitio 3 son 12:102, por lo que

$$0.2123 / (1 - 0.2123) \times 12 / 102 = 0.0317.$$

Esto corresponde a una nueva probabilidad o "valor p" de $0.0307$ --sorprendentemente cercano al valor p de dos caras de $0.0287$ obtenida para la tabla completa.

Creamos o no en esta intuición, la discrepancia en los valores p nos está diciendo que el resultado aparentemente significativo de la tabla completa se debe casi por completo a la solo observación obtenida en el Sitio 3.

¿Realmente quiere sacar una conclusión sobre los dos primeros sitios basándose en un único resultado de un tercero, diferente sitio? Resulta difícil imaginar un escenario en el que esto fuera acertado. En su lugar, se podría concluir algo así:

Casi todos los datos se obtuvieron en los sitios 1 y 2. La mayoría de las observaciones (102 de 114) eran "ceros" (atributo de la columna izquierda). No muestran pruebas significativas de una asociación con las columnas (prueba exacta de Fisher, p = 0,212). Un único valor obtenido en un tercer sitio fue uno de los relativamente raros "unos" (atributo de la columna derecha). La inclusión de esta observación crea la aparición de una asociación en toda la tabla (prueba exacta de Fisher, p = 0,029). Esto puede tomarse como una (muy) débil sugerencia inicial de que el Sitio 3 podría diferir de los Sitios 1 y 2 en tener una mayor tendencia a exhibir "unos".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X