7 votos

Intervalos de confianza para proporciones (prevalencia)

Tengo algunos datos de una muestra de $n=1776$ hospitales. Para cada hospital hay un total número de pacientes (patients), y un número de pacientes diagnosticados con una condición particular (diagnosed). ¿Puedo tomar la media de esta proporción,diagnosed/patients, para todos los hospitales de la muestra, $\hat{\mu}$, y calcular un intervalo de confianza 95% como $\hat{\mu} \pm 1.96\sigma / \sqrt{n}$ o $\hat{\mu} \pm 1.96 \sqrt{\hat{\mu}(1-\hat{\mu})/n}$ ? O.... ?

Actualización

[Después de los comentarios de whuber]. Además, los datos se dividen en 2 grupos de edad (jóvenes y viejos) y 3 calificaciones de riesgo. Es decir, todos los 1776 hospitales tienen número total de pacientes de la siguiente manera:

               younger patients       older patients             

Low risk            A                      D

Medium risk         B                      E

High risk           C                      F

...y lo mismo para el número de pacientes con la enfermedad.

Así, para cada combinación de grupo de edad y puntuación de riesgo, me gustaría estimar la prevalencia media y un intervalo de confianza para él.

He aquí algunos de resumen de los datos

Risk   age    mean   sd      n
1      u50    0.37   0.19    1776
2      u50    0.49   0.25    1776
3      u50    0.54   0.26    1776
1      o50    0.45   0.36    1776
2      o50    0.52   0.42    1776
3      o50    0.67   0.41    1776

3voto

Bruce ONeel Puntos 391

Podría intentar un enfoque bootstrap no paramétrico. Por ejemplo

 require(boot)
the.means = function(dt, i) {mean(dt[i])}
boot.obj <- boot(data=mydata, statistic=the.means , R=10000) 
quantile(boot.obj$t, c(.025,.975))
 

Puede repetir esto para cada uno de sus 6 subconjuntos de datos.

3voto

Zolani13 Puntos 128

Joe,

Revise para ver si (tamaño de la muestra)*(proporción diagnosticados) >= 5 para cada hospital o grupo de hospitales por edad/puntuación de riesgo. Si es así, entonces la normal dbn se aproxima a la binomial dbn y el IC del 95% = p_hat +/- 1.96*(p_hat*(1-p_hat)/n)^0.5 fórmula puede ser utilizada.

Para una mejor aproximación, el uso de la Wilson puntuación intervalo (ver http://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval).

Robert

1voto

Neal Puntos 316

Actualizado Método De Regresión

He aquí una forma que podría funcionar. Usted puede "ampliar" los datos del paciente, por lo que cada fila corresponde a un paciente que es diagnosticado o no. Podría tener este aspecto:

hospital de edad diagnosticados de riesgo
1 1 0 1
1 0 1 0
1 1 2 1

A continuación, se puede estimar un modelo binario, como un probit, donde las variables dependientes son maniquíes para el riesgo de la edad de las interacciones del grupo. Usted también puede querer clúster en el hospital. A continuación, se puede calcular la predicción de los márgenes para cada riesgo-edad ficticia.

Esto no va a funcionar

Usted puede modificar esto en un contexto de regresión por lineal simple el modelo de $\log(y)$ en una constante, y exponentiating los coeficientes y de la Cei. Esto le dará la media geométrica y su IC, lo cual es apropiado utilizar ya que se trata de tasas. Dado que todos los su $\mu$s es mayor que cero, tomando registros no le costará ningún dato.

He aquí un ejemplo en Stata:

. sysuse auto,clear
(1978 Automobile Data)

. generate logprice=log(price)

. regress logprice, eform(GM)

      Source |       SS       df       MS              Number of obs =      74
-------------+------------------------------           F(  0,    73) =    0.00
       Model |           0     0           .           Prob > F      =       .
    Residual |  11.2235331    73  .153747029           R-squared     =  0.0000
-------------+------------------------------           Adj R-squared =  0.0000
       Total |  11.2235331    73  .153747029           Root MSE      =  .39211

------------------------------------------------------------------------------
    logprice |         GM   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       _cons |   5656.907   257.8496   189.56   0.000     5165.664    6194.866
------------------------------------------------------------------------------

. means price

    Variable |    Type        Obs        Mean       [95% Conf. Interval]
-------------+----------------------------------------------------------
       price | Arithmetic      74    6165.257        5481.914     6848.6 
             |  Geometric      74    5656.907        5165.664   6194.865 
             |   Harmonic      74    5296.672        4928.901    5723.75 
------------------------------------------------------------------------

Tenga en cuenta que la media geométrica coincide con los resultados de regresión muy bien. Aprendí acerca de esto de Roger Newson Stata Tip #1.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X