Tengo algunos datos de una muestra de $n=1776$ hospitales. Para cada hospital hay un total número de pacientes (patients
), y un número de pacientes diagnosticados con una condición particular (diagnosed
). ¿Puedo tomar la media de esta proporción,diagnosed
/patients
, para todos los hospitales de la muestra, $\hat{\mu}$, y calcular un intervalo de confianza 95% como $\hat{\mu} \pm 1.96\sigma / \sqrt{n}$ o $\hat{\mu} \pm 1.96 \sqrt{\hat{\mu}(1-\hat{\mu})/n}$ ? O.... ?
Actualización
[Después de los comentarios de whuber]. Además, los datos se dividen en 2 grupos de edad (jóvenes y viejos) y 3 calificaciones de riesgo. Es decir, todos los 1776 hospitales tienen número total de pacientes de la siguiente manera:
younger patients older patients
Low risk A D
Medium risk B E
High risk C F
...y lo mismo para el número de pacientes con la enfermedad.
Así, para cada combinación de grupo de edad y puntuación de riesgo, me gustaría estimar la prevalencia media y un intervalo de confianza para él.
He aquí algunos de resumen de los datos
Risk age mean sd n
1 u50 0.37 0.19 1776
2 u50 0.49 0.25 1776
3 u50 0.54 0.26 1776
1 o50 0.45 0.36 1776
2 o50 0.52 0.42 1776
3 o50 0.67 0.41 1776