Me resulta difícil decidir cómo proceder. Pensé que una prueba T funcionaría, pero no estoy 100% seguro. Tengo dos conjuntos de datos. Uno contiene una tasa de diabetes en una ciudad en un solo año. El siguiente es una tasa de diabetes (con los mismos métodos) en esa misma ciudad dos años después. Tengo más de 200 ciudades en la lista y me gustaría ver si hay un aumento o disminución estadísticamente significativo de la diabetes para cada año dentro de la ciudad (no entre ellas). ¿Hay alguna forma de hacerlo?
Respuesta
¿Demasiados anuncios?Sí, puede utilizar una prueba t para comprobar si la diferencia observada indica una diferencia en las probabilidades subyacentes. Como alternativa, puede utilizar una prueba de proporción diseñado específicamente para esta situación. Como su n es muy grande, no importa qué prueba utilice, y en realidad los resultados son casi idénticos, como se muestra en este ejemplo hipotético con una probabilidad de diabetis realista:
> p <- 5/83
> q <- p + 0.001
> n <- 5*10^5
> prop.test(x=floor(c(p,q)*n), n=c(n,n), correct=F)
2-sample test for equality of proportions without continuity correction
X-squared = 4.3821, df = 1, p-value = 0.03632
> # t-test by hand
> sx2 <- p*(1-p)*n/(n-1)
> sy2 <- q*(1-q)*n/(n-1)
> T <- abs(q - p) / sqrt((sx2 + sy2)/n)
> k <- (n-1) * (sx2/n + sy2/n)^2 / ((sx2/n)^2 + (sy2/n)^2)
> cat(sprintf("p-value from t-test: %f\n", 2*(1-pt(T,k))))
p-value from t-test: 0.036320
Sin embargo, me pregunto si esto es realmente lo que le interesa: ¿realmente sólo quiere comparar dos puntos en el tiempo? ¿O quiere saber si ha habido un cambio significativo con respecto al pasado (es decir, teniendo en cuenta las fluctuaciones del pasado)?
En este último caso, puede ajustar un modelo lineal para la ciudad de interés y comprobar si la tendencia es significativa. Esto permitiría incluso comprobar la existencia de valores atípicos.