4 votos

Comprender la fórmula del intervalo de confianza de la diferencia entre dos proporciones muestrales

Tengo problemas para entender la fórmula $$(\hat{p}_1-\hat{p}_2) \pm 1.96 \sqrt{\frac{\hat{p}_1 (1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2 (1-\hat{p}_2)}{n_2}}$$

Es la idea de que la distribución muestral de la diferencia entre proporciones de grupo $1$ y proporciones de grupo $2$ del tamaño de la muestra $n$ se distribuye normalmente independientemente de la forma de distribución de la población, del mismo modo que ocurre con la distribución muestral de las medias muestrales, por ejemplo?

Y en este caso, ¿qué significa eso exactamente? Digamos que tenemos un tamaño de muestra de $10$ estamos hablando de todas las combinaciones posibles de diferencias entre todas las combinaciones posibles de muestras de tamaño $10$ para ambos grupos y decir que esa "función" tiene una distribución aproximadamente normal? ¿Qué significa restar una distribución muestral de otra?

Y entonces, ¿de dónde sale la raíz cuadrada? ¿Es sólo el SE de la distribución resultante de restar la distribución muestral de las proporciones muestrales del grupo 2 de la distribución muestral del grupo 1?

5voto

Helper Puntos 1

Supongamos que tenemos dos variables aleatorias tales que $$X_1 \sim N(\mu_1, \sigma^2_1) \text{ and } X_2 \sim N(\mu_2, \sigma^2_2).$$

Si $X_1$ et $X_2$ son independientes, entonces para cualquier $a, b$ $$aX_1 + bX_2 \sim N(a \mu_1 + b\mu_2, a^2\sigma^2_1 + b^2\sigma^2_2). $$

Esto es por propiedades de varianza y expectativa, y que la suma de dos normales independientes es una normal. La interpretación de esto no es que se estén combinando las distribuciones muestrales, sino que, de hecho, si escalamos y sumamos las variables aleatorias ellos mismos, entonces terminará con esa distribución de muestreo.

Si te dieras cuenta $x_1$ para $X_1$ a través de un experimento y debían hacer $95\%$ intervalos de confianza para $\mu_1$ usando esto, la forma estándar de hacerlo te daría $$ x_1 \pm 1.96 \sqrt{\sigma^2_1}. $$

Ahora, de manera similar usted corrió un experimento Binomial, y sobre $n_1$ sorteos contaron el número de aciertos. $\hat{p}_1$ es tu media (proporción), y la distribución muestral para esto es aproximadamente $$\hat{p}_1 \sim N\left(p_1, \dfrac{p_1(1-p_1)}{n_1} \right). $$

Del mismo modo, para el segundo experimento $$\hat{p}_2 \sim N\left(p_2, \dfrac{p_2(1-p_2)}{n_2} \right). $$

Si ahora necesita encontrar un intervalo de confianza para $p_1 - p_2$ necesitas su distribución muestral aproximada. Así que deja que $a = 1$ et $b = -1$ .

$$\hat{p_1} - \hat{p_2} \sim N\left( p_1 - p_2, \dfrac{p_1(1-p_1)}{n_1} + \dfrac{p_2(1-p_2)}{n_2} \right).$$

La interpretación de esta distribución muestral es que si se obtiene una muestra de tamaño $n_1 = 30$ de la primera población y calcular $\hat{p}_1$ y obtener otra muestra de la segunda población de tamaño $n_2 = 50$ y calcula $\hat{p_2}$ repite este experimento 1000 veces y anota $\hat{p_1} - \hat{p_2}$ entonces estos valores seguirán aproximadamente esa distribución de muestreo. Hago esto en el siguiente código R.

set.seed(10)

## true values
p1 <- .2
p2 <- .3

n1 <- 30
n2 <- 50

diff_vector <- numeric(length = 1000)

for(i in 1:1000)
{
    X1 <- rbinom(1,n1, p1)
    phat1 <- X1/n1

    X2 <- rbinom(1,n2, p2)
    phat2 <- X2/n2

    diff_vector[i] <- phat1 - phat2
}

## parameters of the sampling distribution
diff_mean <- p1 - p2
diff_var <-  p1*(1-p1)/n1 + p2*(1-p2)/n2

x <- seq(-.8, .6, length = 1000)
y <- dnorm(x, mean = diff_mean, sd = sqrt(diff_var))

plot(x, y, type = "l")
lines(density(diff_vector), col = "red")

El gráfico siguiente es el resultado que se obtiene. La línea negra es la distribución de muestreo esperada, y la línea roja es la distribución obtenida mediante el experimento. Verás que se superponen. Si examinas el código comprenderás que he calculado la diferencia $\hat{p}_1 - \hat{p_2}$ sobre 1000 experimentos, y luego sólo trazó la densidad.

enter image description here

Utilizando esta distribución de muestreo se sabe que una norma $95\%$ intervalo de confianza para $p_1 - p_2$ será $$\hat{p}_1 - \hat{p}_2 \pm 1.96 \sqrt{ \dfrac{p_1(1-p_1)}{n_1} + \dfrac{p_2(1-p_2)}{n_2}}.$$

Esto sigue igual que antes.

3voto

Pere Puntos 658

Empezaré por lo más fácil:

¿Qué significa restar una distribución muestral de otra?

Para la mayoría de los tipos de intervalos de confianza empezamos con una estimación puntual de nuestro parámetro y luego sumamos y restamos el radio del intervalo.

Aquí se intenta estimar la diferencia de proporciones entre dos poblaciones (grupo 1 y grupo 2). La forma más razonable (y matemáticamente correcta) de estimar dicha diferencia es tomar una muestra de cada población, contar ambas proporciones y restarlas. Por ejemplo, si en la muestra del grupo 1 se encuentra una proporción del 40% de algún suceso y del 30% en la muestra del grupo 2, su estimación puntual será que la proporción es mayor en el grupo 1 en un 10%.

Y en este caso, ¿qué significa eso exactamente? Digamos que tenemos un tamaño de muestra de $10$ estamos hablando de todas las combinaciones posibles de diferencias entre todas las combinaciones posibles de muestras de tamaño $10$ para ambos grupos y decir que esa "función" tiene una distribución aproximadamente normal? ¿Qué significa restar una distribución muestral de otra?

Supongo que ya entiendes la distribución de una proporción en una muestra. Si tenemos una población, tomamos la proporción en una muestra como variable aleatoria. Aquí tenemos dos poblaciones y dos muestras, y nuestra variable aleatoria es la diferencia de las proporciones entre nuestras dos muestras, que es la diferencia de dos variables aleatorias.

Y sí, estamos suponiendo que esa variable aleatoria se distribuye normalmente -de ahí el valor 1,96 para el intervalo de confianza del 95%-, pero cuidado que con una muestra de tamaño 10 no será normal. Se suele sugerir el tamaño 30 como mínimo para obtener una aproximación a una normal.

Y entonces, ¿de dónde sale la raíz cuadrada? ¿Es sólo el SE de la distribución resultante de restar la distribución muestral de las proporciones muestrales del grupo 2 de la distribución muestral del grupo 1?

Tienes razón: la varianza (estimada) de la proporción muestral en el grupo 1 es $\frac{\hat{p}_1 (1-\hat{p}_1)}{n_1}$ y en el grupo 2 es $\frac{\hat{p}_2 (1-\hat{p}_2)}{n_2}$ y la varianza de la suma o diferencia de dos variables independientes es simplemente la suma de ambas varianzas. Entonces, sólo tenemos que tomar la raíz cuadrada de la varianza para obtener la desviación típica.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X