1 votos

Cuando se realiza un muestreo de una población determinada muchas veces la relación de los intervalos de confianza con la proporción de la población parece errónea

Escribí un Script de Python generando una población de votos sí/no con el 50% de los votos fijados aleatoriamente al sí.

Luego tomo muestras de 50 votos muchas veces (digamos 10,100,100,10000 y 100000) y pruebo para cada muestra si su intervalo de confianza para un nivel de confianza dado del 95% contiene la proporción poblacional.

Esperaba que la relación entre el número de IC que contienen y el número de todos los IC generados se acercara cada vez más a 0,95, pero esto es lo que obtengo:

  num of samples   ratio
  ---------------- ----------
  10               1.0
  100              0.99
  1000             0.95
  10000            0.9366
  100000           0.93337
  1000000          0.935186

Esto parece que se acerca cada vez más a 0,935 o así.

¿Es probable que esto siga siendo correcto o hay más bien un error en mi programa?


Algunos detalles sobre mi procedimiento:

Calculo el intervalo de confianza CI a partir del nivel de confianza cl así

\begin{alignat*}{2} \text{CI}\; =\; \hat p\; &\pm\; &z^\star\:&\times\:\sqrt{\frac{\hat p \left(1 - \hat p\right)}{n}} \quad \text{with}\; z^\star \text{corresponding to a confidence level of}\; 95\% \end{alignat*}

o en código Python:

sigma_p_hat = math.sqrt(p_hat * (1 - p_hat) / n)
cdf = 0.5+cl/2
z_star = stats.norm.ppf(cdf)
E = z_star * sigma_p_hat
CI = pd.Interval(p_hat-E, p_hat+E, closed='both'

0 votos

¿Qué tipo de intervalo de confianza ha utilizado? Muchos de ellos sólo tienen cobertura aproximada, ¡y los tipos "exactos" para proporciones son aproximados!

0 votos

@MichaelLew ¡Buena observación! He añadido mi método de cálculo del intervalo de confianza a la pregunta. Re aproximación : Creía que la aproximación sólo fallaba para niveles de confianza muy cercano al 100%. El 95% aún está bastante lejos.

0 votos

¿Qué cálculo de ratio?

1voto

Auron Puntos 2123

La cobertura mediante la aproximación normal que ha utilizado es errática, poco fiable y frecuentemente baja. Ese método, a menudo llamado método de Wald, no debería utilizarse a pesar de su importancia en los libros de texto.

Consulte aquí para obtener más información: Funciones discretas: ¿Cobertura del intervalo de confianza?

0 votos

He echado un vistazo al enlace de la respuesta que has proporcionado. Dice: "...ellos [los intervalos de confianza de Neyman] proporcionan cobertura sobre todos los posibles valores de los parámetros a largo plazo". ¿Pero no es eso lo que intento con mi muestreo repetido y su cómputo hacia una proporción?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X