6 votos

Intervalo de confianza para una proporción estimada a través de un muestreo estratificado

A la hora de estimar el intervalo de confianza para una proporción binomial $p$, $\hat{p}$ cerca de 0 o 1, se tiene que utilizar algo más que el intervalo de Wald para obtener una estimación razonable (véase, por ejemplo, Brown, Cai, DasGupta (2001)). Pero ¿qué pasa si mi muestra es obtenida a través de un muestreo estratificado, y $\hat{p}$ para cada una de las muestras es igual a, o cerca de cero? A mí me parece que el ajuste en cada estrato es una exageración. ¿Cuál es el proceso adecuado para obtener un intervalo de confianza para $\hat{p}$ en este escenario?

Antecedentes/Contexto: tengo alrededor de 250 registros de personas a las que me gustaría investigar la prevalencia de una enfermedad determinada entre estos individuos. La tarea de examinar los registros es largo y costoso, así que me decidí a tomar una muestra y examinar los registros de la muestra en su lugar. Yo podría estratificar a los 250 registros en 40 de los estratos, cada uno compuesto de registros que yo creo que sería similar hasta la aparición de la enfermedad entre ellos es que se trate (por ejemplo, ellos vivían en la misma zona geográfica.) Los estratos 2 y tan alto como 15 registros en ellos (muchos tiene 2 registros). De cada estrato, cogí un registro aleatorio y lo examinó. Ninguno de los expedientes examinados se indica la ocurrencia de la enfermedad. ¿Cuál es mi intervalo de confianza para $\hat{p}$?

3voto

Mike Barrett Puntos 57

No tengo una respuesta real para usted, sólo algunos pensamientos. Tienes la mala suerte de que la enfermedad es tan rara. La primera vez que voy nota que este diseño podría haber causado problemas, incluso si la enfermedad era común. Por ejemplo, la SE formula para el promedio ponderado de prevalencia requiere de $n_h$>1 observación por estrato (Cochran, 1977, Capítulo 5).

Usted pregunta si está bien ignorar la estratificación y aplicar una fórmula exacta para CI. No existe ninguna justificación para esta fórmula: supone la teoría del muestreo aleatorio simple (SRS). En que el diseño de cada observación tiene la misma probabilidad de selección. En su diseño, una muestra estratificada, las probabilidades van desde 1/2 a 1/15, o, más formalmente $1/N_h$ donde $N_h$ es el tamaño del estrato h. El SRS CI extremo de ser sesgada si se sobre-representados o bajo en la muestra de los estratos con mayor espera prevalencias.

Usted puede, sin embargo, comprobar en este sesgo direccional. Usted tiene algún conocimiento de riesgo predictores de la enfermedad-las características que se utilizan para formar los estratos. Lo mejor que puede, el formulario G grupos de estratos con diferentes niveles de riesgo y rango de los grupos de menor riesgo esperado a la más alta. A continuación, parcela individual $N_h$ y la media del grupo $N_h$ contra el número de grupo. Una tendencia positiva (promedio, $N_h$ aumentando con el número de grupo) indican que bajo muestreados en los grupos de alto riesgo. Esto podría explicar en parte el fracaso de ver cualquiera de los casos. Una tendencia negativa demuestren que sobre-representados los grupos de alto riesgo. En caso de que la incapacidad de ver de los casos es debido en parte a la mala suerte y a la toma de una muestra demasiado pequeña.

La teoría del Muestreo Aleatorio Simple sin reemplazo

Deje que el número desconocido de pacientes con enfermedad sea D, asumió >0; entonces la prevalencia de la enfermedad $P$ es

$$ P = \frac{D}{N} $$

Tenga en cuenta que D puede tomar sólo valores enteros.

Supongamos que el número de pacientes observados con la condición de T. Entonces T tiene una distribución hipergeométrica, no una distribución binomial, debido a que el tamaño de la población es finita (Cochran, 1977, pág. 55). (Esto explica la aparición de corrección de la población finita de variaciones en el muestreo sin reemplazo).

Los parámetros de la distribución hipergeométrica se $N$, el tamaño de la población, $D$ el número de pacientes con la enfermedad en la población, y $n$, el tamaño de la muestra. La probabilidad de que $T = d$ es:

$$ \text{Pr($T =d \vert N, n,D$)} =\dfrac{ { D\elegir{d}} {N -D\elegir{n-d}}} {{N \elegir{n}}} $$

Intervalo de confianza para la cirugía sin reemplazo

Voy a demostrar que el CI que habría sido válido para una muestra aleatoria simple. Con el tamaño de la población $N$, los acontecimientos en la población, $d$ eventos en la muestra, y un tamaño de muestra de $n$. La cara $1-\alpha$ extremo para $D$ es el mayor valor de D para el cual

$$ P(T \leq d \> \vert \> N, n, D) \leq \alpha $$

donde T tiene una distribución hipergeométrica con parámetros (N, n, y D). Este CI se basa en la inversión de una prueba de hipótesis acerca de D. Véase, por ejemplo, Blaker, 2000.

Con d = 0, esto es

$$ P(T =0 \> \vert \> N, n, D) \leq \alpha $$

En su estudio, $N=2500$, $n= 40$, y $d=0$. Supongamos que esta información ha sido generada por un SRS. He utilizado el programa Stata de la función hipergeométrica para generar un solo lado del 80% de CI. Puedo elegir el 80%, porque en tal situación, mi práctica es el comercio de confianza para un intervalo menor.

Bajo SRS, el límite superior de la cara del 80% (en realidad, el 79,8%) hipergeométrica CI para $D$ $D_u$ =9, que corresponde a una prevalencia de $\hat{P}$= 9/250 = 3.6%. La correspondiente a una cara binomio intervalo que ignora el muestreo finito sería $\hat{P}$= 3.9%. Se puede ver que la hipergeométrica intervalo es más corto. En ambos intervalos son propensos a ser conservador, con la verdadera probabilidad de cobertura mayor que la nominal del 80% (Blaker, 2000).

Distribución Actual: suma ponderada de las variables de Bernoulli

Deje $h$ índice de estratos. En el estrato $h$, vamos a $n_h$ el tamaño de la muestra (=1), $d_h$ el número de casos de la enfermedad en la muestra (= 0 o 1, aquí) , $D_h$ ser la que se desconoce el número de pacientes en la población con enfermedad, $P_h= D_h/N_h$ ser el desconocido prevalencia en los estratos.

Si la suma de los $D_h$ $D$ es la que se desconoce el número de pacientes con enfermedades en la población. La prevalencia estimada es de

\begin{align} \hat{P} & = \frac{\hat{D}}{N} \end{align}

con

\begin{align} \hat{D} = \sum_h \dfrac{N_h}{n_h} d_h = \sum_h N_h d_h \end{align}

Con $n_h$=1, la distribución de $d_h$ es la de un Bernoulli 0-1 variable aleatoria con probabilidad $p_h$ = $D_h/N_h$. Por lo tanto $\hat{D}$ es la suma ponderada de estos..

No sé cómo hacer una prueba de hipótesis para $D$ en esta situación; así que no tengo una prueba para invertir para obtener un intervalo de confianza. El problema es que no existe una única distribución de probabilidad para $\hat{D}$ para cada posible valor de $D_0$; existe una distribución diferente para cada conjunto compatible de la $D_h$ que $\sum_h D_h = D_0$.

Otros Diseños

Confrontado con una población con un poco de resultado, no hay muchas buenas opciones. Una muestra más grande habría ayudado. Una rara resultado como el tuyo, yo habría intentado inversa de muestreo: muestreo al azar hasta que uno de los casos fue encontrado, por lo que el número de ensayos es la variable aleatoria. Hay CI fórmulas para el caso de muestras independientes (Ver Zou, 2010), pero no he encontrado uno para el caso de sin-reemplazo de muestreo, donde la distribución relevante es el "negativo hipergeométrica", que es el mismo que el beta-binomial distribución,

Hay una teoría de diseño óptimo, y lo declaro para el fondo. De acuerdo a la teoría, la probabilidad de selección de $\pi$ para una observación debe ser proporcional a la espera de "tamaño" de la observación, en este caso su riesgo de la enfermedad. Para el muestreo estratificado (Cochran, 1977, Capítulo 5), se podría formar un pequeño número de estratos en los cuales las observaciones similares espera muy bajos riesgos $P_h$, y luego hacer la selección de la fracción $n_h/N_h \propto P_h(1-P_h)$, que está muy cerca de a $P_h$ para los pequeños riesgos. Es poco probable que usted sería capaz de cuantificar los riesgos reales, pero usted consigue la idea: pacientes de alto riesgo son seleccionados con mayores probabilidades.

Una práctica táctica es identificar un grupo de $N_1$ de los pacientes con riesgos tan bajo que usted está muy seguro de que no hay casos entre ellos. Esto deja a $N_2 = N -N_1$ de la gente. Usted, a continuación, a omitir a partir de la inversa de muestreo. Si la parte superior del extremo de CI de inversa o el muestreo aleatorio es $\hat{P_2}$, la prevalencia estimada en la población de es $\hat{P} = \dfrac{N_2}{N} \hat{P_2}$.

Referencias

H. Blaker, 2000. La confianza de curvas y mejora exacta de los intervalos de confianza para distribuciones discretas. Revista canadiense de Estadísticas J Estadísticas 28, no. 4: 783-798.

Cochran, William G. 1977. Técnicas De Muestreo. Nueva York: Wiley.

Zou, G. Y. 2010. Intervalo de confianza de la estimación bajo inversa de muestreo. La Estadística computacional Y Análisis de Datos 54, no. 1: de 55 a 64 años.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X