ANTECEDENTES: Saltar de forma segura - aquí es para referencia, y para legitimar la pregunta.
La apertura de este documento se lee:
"Karl Pearson famoso de la chi-cuadrado de contingencia de la prueba derivada de otra estadística, llamado z estadística, basada en la distribución Normal. La más simple de las versiones de $\chi^2$ puede demostrarse matemáticamente idéntica a la z equivalentes pruebas. Las pruebas producen el mismo resultado en todas las circunstancias. Para todos los intentos y propósitos de "chi-cuadrado" podría ser llamado "z-cuadrado". Los valores críticos de $\chi^2$ para un grado de libertad son la plaza de los correspondientes valores críticos de z".
Esto ha sido afirmado varias veces en la CV (aquí, aquí, aquí y otros).
Y de hecho, podemos demostrar que $\chi^2_{1\,df}$ es equivalente a $X^2$$X\sim N(0,1)$:
Digamos que $X \sim N(0,1)$ y $Y=X^2$ y encontrar la densidad de $Y$ mediante el uso de la $cdf$ método de:
$p(Y \leq y) = p(X^2 \leq y)= p(-\sqrt{y} \leq x \leq \sqrt{y})$. El problema es que no podemos integrar en cerca de la forma de la densidad de la distribución normal. Pero podemos expresar:
$$ F_X(y) = F_X(\sqrt{y})- F_X(-\sqrt[]{y}).$$ Taking the derivative:
$$ f_X(y)= F_X'(\sqrt{y})\,\frac{1}{2\sqrt{y}}+ F_X'(\sqrt {y})\,\frac{1}{2\sqrt{y}}.$$
Since the values of the normal $pdf$ are symmetrical:
$ f_X(y)= F_X'(\sqrt{y})\,\frac{1}{\sqrt{y}}$. Equating this to the $pdf$ of the normal (now the $x$ in the $pdf$ will be $\sqrt{y}$ to be plugged into the $e^{-\frac{x^2}{2}}$ part of the normal $pdf$); and remembering to in include $\frac{1}{\sqrt{y}}$ at the end:
$$ f_X(y)= F_X'(\sqrt[]{y})\,\frac{1}{\sqrt[]{y}}= \frac{1}{\sqrt{2\pi}}\,e^{-\frac{y}{2}}\, \frac{1}{\sqrt[]{y}}=\frac{1}{\sqrt{2\pi}}\,e^{-\frac{y}{2}}\, y^{\frac{1}{2}- 1}$$
Compare to the pdf of the chi square:
$$ f_X(x)= \frac{1}{2^{\nu/2}\Gamma(\frac{\nu}{2})}e^{\frac{-x}{2}}x^{\frac{\nu}{2}-1}$$
Since $\Gamma(1/2)=\sqrt{\pi}$, for $1$ df, we have derived exactly the $pdf$ of the chi square.
Further, if we call the function prop.test()
in R we are invoking the same $\chi^2$ prueba como si nos decidimos a chisq.test()
.
LA PREGUNTA:
Por lo tanto, obtener todos estos puntos, sin embargo, todavía no sé cómo se aplican a la implementación real de estas dos pruebas por dos razones:
Una prueba z no es cuadrado.
El real de la estadística de prueba son completamente diferentes:
El valor de la prueba estadística para un $\chi^2$ es:
$\chi^2 = \sum_{i=1}^{n} \frac{(O_i - E_i)^2}{E_i} = N \sum_{i=1}^n p_i \left(\frac{O_i/N - p_i}{p_i}\right)^2$ donde
$\chi^2$ = Pearson acumulativo del estadístico de prueba, que asintóticamente enfoques $\chi^2$ distribución. $O_i$ = el número de observaciones de tipo $i$; $N$ = número total de observaciones; $E_i$ = $N p_i$ = la espera (teórico) de frecuencia de tipo $i$, afirma la hipótesis nula de que la fracción de tipo $i$ en la población de es $p_i$; $n$ = el número de celdas de la tabla.
Por otro lado, el estadístico de prueba para un $z$-prueba es:
$ \displaystyle Z = \frac{\frac{x_1}{n_1}-\frac{x_2}{n_2}}{\sqrt{p\,(1-p)(1/n_1+1/n_2)}}$ $\displaystyle p = \frac{x_1\,+\,x_2}{n_1\,+\,n_2}$ donde $x_1$ $x_2$ el número de "éxitos", sobre el número de sujetos en cada uno de los niveles de las variables categóricas, es decir,$n_1$$n_2$.
Esta fórmula parece depender de la distribución binomial.
Estas dos pruebas estadísticas son claramente diferentes, y producir resultados diferentes para la prueba real de estadísticas, así como para los p-valores: 5.8481
de la $\chi^2$ e 2.4183
para la prueba z, donde: $\small 2.4183^2=5.84817$ (gracias, @mark999). El p-valor para el $\chi^2$ prueba es 0.01559
, mientras que para la prueba z es 0.0077
. La diferencia se explica por dos colas frente a una cola: $\small 0.01559/2=0.007795$ (gracias @ameba).
A qué nivel podemos decir que son uno y el mismo?