73 votos

Prueba si dos distribuciones binomiales son estadísticamente diferentes entre sí

Tengo tres grupos de datos, cada uno con una distribución binomial (es decir, cada grupo tiene elementos que son ya sea de éxito o de fracaso). No tengo una predicción de la probabilidad de éxito, sino que sólo puede basarse en la tasa de éxito de cada uno como una aproximación de la verdadera tasa de éxito. Sólo he encontrado esta pregunta, que está cerca, pero no parece exactamente de acuerdo con este escenario.

Para simplificar la prueba, vamos a decir que tengo 2 grupos (3 puede ser extendido a partir de este caso base).

  • Grupo 1 ensayos: $n_1$ = 2455
  • Grupo 2 ensayos: $n_2$ = 2730

  • Éxito en el grupo 1: $k_1$ = 1556
  • El grupo 2 de éxito: $k_2$ = 1671

No tengo una probabilidad de éxito que se esperaba, sólo lo que yo sé de las muestras. Así que mi implícita tasa de éxito para los dos grupos es:

  • Grupo 1 tasa de éxito: $p_1$ = 1556/2455 = 63.4%
  • Grupo 2 tasa de éxito: $p_2$ = 1671/2730 = 61.2%

La tasa de éxito de cada una de las muestras es bastante cerca. Sin embargo, mi tamaños de muestra son también muy grande. Si la CDF de la distribución binomial para ver lo diferente que es a partir de la primera (donde estoy suponiendo que la primera es la nula de la prueba) consigue una muy pequeña probabilidad de que la segunda podría ser alcanzado.

En Excel:

1-BINOM.DIST(1556,2455,61.2%,TRUE) = 0.012

Sin embargo, esto no toma en cuenta cualquier variación en el resultado de la primera, se asume que el primer resultado es la prueba de la probabilidad.

Existe una mejor forma de probar si estas dos muestras de datos de la realidad son estadísticamente diferentes el uno del otro?

62voto

Maxcot Puntos 121

El soultion es un simple google de distancia: http://en.wikipedia.org/wiki/Statistical_hypothesis_testing

Así que te gustaría poner a prueba la siguiente hipótesis nula contra la alternativa propuesta

$H_0:p_1=p_2$ frente al $H_A:p_1\neq p_2$

Tan sólo necesita para calcular el estadístico de prueba que se

$$z=\frac{\hat p_1-\hat p_2}{\sqrt{\hat p(1-\hat p)\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}$$

donde $\hat p=\frac{n_1\hat p_1+n_2\hat p_2}{n_1+n_2}$.

Así que ahora, en su problema, $\hat p_1=.634$, $\hat p_2=.612$, $n_1=2455$ y $n_2=2730.$

Una vez que se calcula el estadístico de prueba, sólo es necesario calcular la correspondiente región crítica del valor para comparar el estadístico de prueba. Por ejemplo, si usted prueba esta hipótesis en el 95% de nivel de confianza, entonces usted necesita para comparar el estadístico de prueba en contra de la región crítica del valor de $z_{\alpha/2}=1.96$ (de cola).

Ahora, si $z>z_{\alpha/2}$, entonces usted puede rechazar la hipótesis nula, de lo contrario, usted debe no se puede rechazar la hipótesis nula.

Bueno, esto funciona de la solución para el caso cuando se comparan dos grupos, pero no generalizar para el caso donde se desea comparar los 3 grupos.

Usted podría, sin embargo el uso de un Chi-Cuadrado de la prueba para probar si todos los tres grupos tienen igualdad de proporciones, como sugerido por @Eric en su comentario anterior: "¿ esta pregunta ayuda? stats.stackexchange.com/questions/25299/ ... – Eric"

19voto

David Makovoz Puntos 39

En R la respuesta se calcula como:

fisher.test(rbind(c(1556,2455-1556), c(1671,2730-1671)), alternative="less")

1voto

Sami Kujala Puntos 60

Su estadística de prueba es $Z = \frac{\hat{p_1}-\hat{p_2}}{\sqrt{\hat{p}(1-\hat{p})(1/n_1+1/n_2)}}$ donde $\hat{p}=\frac{n_1\hat{p_1}+n_2\hat{p_2}}{n_1+n_2}$.

Las regiones críticas se $Z > \Phi^{-1}(1-\alpha/2)$ $Z<\Phi^{-1}(\alpha/2)$ para la prueba de dos colas con la habitual ajustes para la prueba una cola.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X