5 votos

Más interpretables medida de asociación de los odds-ratios para tablas de contingencia con 0 cuenta

Cómo de fuerte/débil de correlación es esto?

                  Exposure
                   No Yes  Total
            FALSE 139 467   606
Disease     TRUE   11 104   115
            Total 150 571   721

OR =  2.81 
Exact 95% CI =  1.45, 5.97  
Chi-squared = 10.49, 1 d.f., P value = 0.001
Fisher's exact test (2-sided) P value = 0.001 

¿Qué hay de esto?

                   Exposure
                    No  Yes  Total
Disease     FALSE  301 1232  1533
            TRUE     0   17    17
            Total  301 1249  1550

OR =  Inf 
Exact 95% CI =  1, Inf  
Chi-squared = 4.14, 1 d.f., P value = 0.042
Fisher's exact test (2-sided) P value = 0.057
  • ¿Hay alguna mejor/otros métodos para calcular el riesgo relativo con un intervalo de confianza para datos como estos?
  • Si hay otros métodos, cuáles son sus ventajas/desventajas?

Así, el primero es bastante fácil, se podría decir, "estimamos que aquellos con la exposición son 2.81 [1.45, 5.97] veces más probabilidades de tener la enfermedad (p=.001)". Que suena como un muy buen hallazgo. Sorprendentemente fuerte para la hipótesis de la que estoy trabajando.

La segunda tabla no funciona con la misma fórmula, "estimamos que aquellos con la exposición son infinitamente más probabilidades de tener la enfermedad [1, Inf], p < .05". ¿Qué se puede decir acerca de la segunda tabla? Encogimiento de hombros y decir, "gestión de recursos humanos, de mirar, nos faltan unos 4 no se exponen con la enfermedad .. y no hay ninguno que tienen la enfermedad, que no estuvieron expuestos." Supongo que ya sabe la respuesta aquí. Pero, en la segunda tabla, estoy desgarrado entre el pensar, "dios MÍO, MIRA, no EXPUESTOS, TIENEN 0, y p<.05!" y pensar, "eso es interesante que eso sucedió por casualidad". Supongo que cuando decimos, "se necesita más investigación"?

4voto

Dmitry Laptev Puntos 1846

No estoy exactamente seguro de lo que quiere conseguir, por último, pero echar un vistazo a este mosaico de parcelas de prueba de independencia:

First dataset

Y para el segundo conjunto de datos:

Second dataset

En ambos casos los datos es dependiente, pero es dependiente de otra manera: si en la primera parcela, podemos decir que el 11 es demasiado pequeño (en comparación con el de toda la mesa), luego de la segunda parcela se puede decir que 0 es demasiado pequeño en comparación a la 17.

P. S. me han estafado aquí un poco para crear la segunda trama, he cambiado los datos para deshacerse de cero:

3010, 12320

1, 170

UPD 1. R código para el mosaico de parcelas:

x <- matrix(0, ncol=2, nrow=2)
x[1,] <- c(139, 467)
x[2,] <- c(11,  104)
mosaicplot(x, ylab="Exposure", xlab="Desease", shade=TRUE)

UPD 2. Unas palabras acerca de lo que este gráfico muestra. El área de cada celda es proporcional al número de muestras con la combinación de las propiedades. Que es sólo una manera fácil de visualizar esas tablas como siempre en la pregunta.

La cosa más interesante es la de los colores ("sombra" de los parámetros). Realiza algo como Chi-Cuadrado de la prueba: se compara la distribución teórica cuando la independencia hipótesis es verdadera con la distribución dada. A continuación, las grandes desviaciones son de color: el más importante es el de la desviación, el más saturado el color.

Por desgracia, esta herramienta sólo comprueba las dependencias de datos, pero eso es todo lo que necesitas en el caso de dos variables y de cuatro posibilidades de observación.

1voto

Brettski Puntos 5485

En mi mente, como un Epidemiólogo, depende de por qué hubo cero cuenta.

Si hay una combinación particular de la exposición y la enfermedad que se sabe que es posible, pero poco frecuente, entonces la forma habitual de proceder es añadir algún pequeño número en cada celda, normalmente de 0,5 o así, y proceder a partir de ahí, por lo general el uso de estadísticas precisas para producir una O que se pueden interpretar de la manera habitual.

Pero es posible que hay una razón por la que hay un 0 recuento de células allí. Podría ser etiológico, en la que el punto de que su propio hallazgo importante, o podría estar revelando una falla en el diseño del estudio - por alguna razón usted no está de muestreo esa combinación particular, están siendo excluidos del estudio, etc.

Ambos merecen una mayor investigación, y en ambos casos se ha movido más allá de un único número emergentes a partir de una tabla de contingencia.

0voto

patfla Puntos 1

Una cómoda parametrización de este problema es a través de las probabilidades marginales y condicionales. Así que tenemos un parámetro para la exposición $\pi_{E}$ y dos parámetros para la enfermedad dada la exposición: $\pi_{D|E}$$\pi_{D|\overline{E}}$. A continuación, hacemos una prueba de hipótesis

$$H_0:\; \pi_{D|E}=\pi_{D|\overline{E}}$$

Yo habría pensado que una buena medida de asociación es $1-P(H_0|nI)$ donde $n$ es la muestra de cuenta y $I$ es la información previa/supuestos.

Alternativamente, usted puede calcular la distribución posterior de la diferencia de $\delta=\pi_{D|E}-\pi_{D|\overline{E}}$ o el odds ratio $\gamma=\frac{\pi_{D|E}}{\pi_{D|\overline{E}}}$ si usted lo prefiere. Una cosa a tener en cuenta es que debido a la enfermedad de recuento es pequeña, la inferencia será sensible a la distribución previa - para una sensibilidad de verificación para un par de similar priores que sería deseable.

También hay una buena cantidad de literatura sobre los enfoques Bayesianos. aquí es una útil entrada de blog que describe un ejemplo de lo que estoy hablando.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X