5 votos

Comparación de las tasas de incidencia múltiple

Me hace la siguiente pregunta sobre el desbordamiento de la pila de ayer: Binomial negativa de la función en R

Leer el comentario 2, entiendo que no puedo usar una binomial negativa enfoque de modelado (Poisson modelo funciona, pero sospecho que la hipótesis de igualdad de media y varianza no es válido-aunque no estoy seguro de cómo puedo probar esto con un desplazamiento) y comparar los betas a una categoría de referencia. He buscado en google y miró a través de mis libros, pero no puede encontrar cualquier otro enfoque para comparar múltiples tasas de incidencia.

b <- data.frame(
  s=c(1800,539,490,301),
  pop=c(2900000,1327000,880000,268000),
  reg=c("A","B","C","D")
)

summary(pois.b<-glm(s~reg,offset=log(pop),data=b,family="poisson"))

Así que la pregunta es : ¿hay alguna diferencia entre las regiones con respecto a la incidencia?

Dado que la pregunta de ayer fue relacionado con el software y hoy es estadísticamente más sabor pensé que no pertenecía aquí en la cruz-validado.

EDIT: 11 de Agosto:

Ya que no hay otras covariables aquí y los números son grandes, supongo que algo tan simple como

pairwise.prop.test(x=b$s,n=b$pop,p.adjust.method="bonferroni")

me llevaría un largo camino.

2voto

willmer Puntos 11

Si sólo tiene cuatro puntos de datos, creo que la mejor manera de hacer esto es con un G^2 de la prueba. Quieres empezar por asumir la frecuencia es de una distribución binomial (cada persona en la población tiene la condición con probabilidad p). Y su hipótesis nula es que p_1=p_2=p_3=p_4.

Así que la media general es (1800+539+490+301)/(2.9 m+1.327 m+.88m+.268m)=0.000582.

Su esperado de casos en cada grupo se 1688.7, 772.7, 512.4, y 156.1. Se puede calcular la G^2 estadística, pero la respuesta que se obtiene es 192.8, que es el chi-cuadrado(3) bajo la hipótesis nula. Este es un muy bajo valor de p, por lo que se rechaza la nula y decir que sí, usted puede estar bastante seguro de que la incidencia es diferente entre estos lugares.

En particular, de que la última ubicación es considerablemente más alto que los otros tres, por lo que está contribuyendo en gran medida a los bajos niveles de p-valor. Puede repetir este análisis para los otros tres y usted puede conseguir algo un poco diferente, pero que es un ejercicio para el lector :-)

HTH

ETA: el DF es de 3, no 1, como Yves se señaló en los comentarios.

2voto

flabdablet Puntos 1066

Dada la escasez de datos que tienen que trabajar con usted sólo puede ser capaz de abordar esta cuestión mediante la incorporación de supuestos adicionales (o de datos?) sobre el proceso que hay detrás de estas tasas de incidencia, a continuación, haciendo algún manual de modelado. Cualquier técnica estadística que se utiliza implícitamente hacer tales supuestos para usted bajo el capó, así que es mejor llamar a esos y a la estructura de su análisis en torno a ellos.

Usted tiene observaciones discreto de la incidencia de la cuenta. Las formas de algunas distribuciones discretas de codificar los siguientes supuestos:

  • Poisson: la varianza es igual a la media de la
  • Binomio: la varianza es menor que la media
  • Binomial negativa: la varianza es mayor que la media

Que ya ha empezado a abajo de este camino por descartar un modelo de poisson para el proceso subyacente, diciendo: varianza = media no es razonable. Si el proceso es un contagio modelo, entonces puede ser muy razonable suponer que la varianza es mayor que la media, por lo que una distribución binomial negativa.

La siguiente pregunta es ajuste de los parámetros del modelo seleccionado y, a continuación, hacer sus comparaciones. Usted podría acercarse a este en un par de formas:

  1. Empíricamente con sus cuatro puntos de datos - calcular la media y la varianza, a continuación, ajuste a la distribución con la antigua álgebra utilizando la distribución de la media y la varianza de las fórmulas. (Usted puede necesitar para estandarizar los datos, por las mismas razones que haría uso de un desplazamiento en el glm.) A continuación, calcular las probabilidades de todos los 4 puntos de datos (y tal vez diferentes combinaciones de 3) utilizando el modelo ajustado(s); menor probabilidad sugiere que el proceso de generación de las tasas de incidencia no son equivalentes.
  2. El uso de los datos de la literatura existente y de investigación para que se ajuste al modelo; a continuación, la prueba de la probabilidad de la incidencia de los datos que se producen bajo ese modelo. La mala adaptación de uno de los puntos de datos podrían sugerir que la tasa de incidencia se desvía de la norma en el proceso de alguna manera (o un mal modelo, por supuesto, si la mayoría o todos no caben bien).

Tales resultados son poco concluyentes (nada puede ser con sólo estos datos en mi humilde opinión), pero igual de importante puede informar el diálogo y la investigación adicional en el proceso que se está modelando.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X