7 votos

¿Cuáles son las diferencias entre la distribución hipergeométrica y la distribución de chi-cuadrado?

Como sugiere el título ... Tengo una pregunta muy básica.

Tengo un caso con los siguientes datos:

 Universe: 18840 balls total
red balls in the universe: 6680
Sample: 382 balls total
red balls in the sample: 160
 

Me gustaría estimar si el porcentaje de bolas rojas en mi muestra es significativamente diferente del porcentaje de bolas rojas en el universo.

En su opinión, ¿es más correcto utilizar una prueba de chi-cuadrado o una distribución hipergeométrica?

7voto

AdamSane Puntos 1825

Cuidado de tomar nota que estamos discutiendo dos diferentes estadísticas aquí.

Vamos a configurar el muestreo de la situación en detalle, primero por lo que podemos estar claro:

Tenemos las bolas de color rojo y no-bolas de color rojo (para simplificar, voy a llamar a todos ellos 'negro', pero podría ser una mezcla de no-color rojo - es irrelevante para este conjunto, ya que simplemente están clasificados como no-rojo).

Tiene una población (su 'universo') de 18840 bolas, 6680 rojo y 12160 negro. Dibuja una muestra aleatoria de 382 bolas sin reemplazo, y obtener 160 rojo y 222 negro.

Que es, a su ejemplo, los datos son así:

         Drawn    Not drawn    Total

Red      160        6520        6680
Black    222       11938       12160

Total    382       18458       18840

Mirando el número de rojos dibuja como una variable aleatoria que tiene una distribución hipergeométrica (aunque formulada en términos de blanco y negro bolas extraídas de la urna en lugar de rojo y negro bolas extraídas a partir de un universo).

[Acondicionado en los márgenes que da la hipergeométrica - esta es también la situación de los utilizados para la prueba exacta de Fisher, basado en la hipergeométrica, y una de las situaciones para las que la costumbre de 2x2 prueba de chi-cuadrado de asociación/de la prueba de independencia se aplica. Si no condición en ambas márgenes, usted no tiene hipergeométrica; pero eso es lo que normalmente se hace en el ámbito específico de bolas en urnas modelo que usted describe.]

Si $O_{ij}$ es el observado contar en la celda $(i,j)$ en la anterior $2\times 2$ tabla, a continuación, sus estadísticas se $O_{11}$ en el primer caso (suponiendo que el rojo es de primera) y $X^2 = \sum \sum {(O_{ij} - E_{ij})^2 \over E_{ij}}$ en el segundo. Ambas estadísticas son realmente discretos, pero se puede aproximar por una distribución continua - la primera por una aproximación normal, el segundo por una chi-cuadrado.

Con el muestreo aleatorio, la distribución del número de bolas rojas en la muestra ($O_{11}$) es hipergeométrica, es decir, dada la habitual supuestos es exactamente correcto.

Dado el universo de detalles y el tamaño de la muestra, el habitual 'chi-cuadrado de estadística, aunque discretas, será muy bien aproximada por una distribución de la chi cuadrado cuando el número de bolas rojas en la muestra es hipergeométrica. Es no exacta, pero será muy de cerca en este caso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X