22 votos

A Qué Nivel es un $\chi^2$ prueba Matemáticamente Idéntica a una $z$-prueba de Proporciones?

ANTECEDENTES: Saltar de forma segura - aquí es para referencia, y para legitimar la pregunta.

La apertura de este documento se lee:

"Karl Pearson famoso de la chi-cuadrado de contingencia de la prueba derivada de otra estadística, llamado z estadística, basada en la distribución Normal. La más simple de las versiones de $\chi^2$ puede demostrarse matemáticamente idéntica a la z equivalentes pruebas. Las pruebas producen el mismo resultado en todas las circunstancias. Para todos los intentos y propósitos de "chi-cuadrado" podría ser llamado "z-cuadrado". Los valores críticos de $\chi^2$ para un grado de libertad son la plaza de los correspondientes valores críticos de z".

Esto ha sido afirmado varias veces en la CV (aquí, aquí, aquí y otros).

Y de hecho, podemos demostrar que $\chi^2_{1\,df}$ es equivalente a $X^2$$X\sim N(0,1)$:

Digamos que $X \sim N(0,1)$ y $Y=X^2$ y encontrar la densidad de $Y$ mediante el uso de la $cdf$ método de:

$p(Y \leq y) = p(X^2 \leq y)= p(-\sqrt{y} \leq x \leq \sqrt{y})$. El problema es que no podemos integrar en cerca de la forma de la densidad de la distribución normal. Pero podemos expresar:

$$ F_X(y) = F_X(\sqrt{y})- F_X(-\sqrt[]{y}).$$ Taking the derivative:

$$ f_X(y)= F_X'(\sqrt{y})\,\frac{1}{2\sqrt{y}}+ F_X'(\sqrt {y})\,\frac{1}{2\sqrt{y}}.$$

Since the values of the normal $pdf$ are symmetrical:

$ f_X(y)= F_X'(\sqrt{y})\,\frac{1}{\sqrt{y}}$. Equating this to the $pdf$ of the normal (now the $x$ in the $pdf$ will be $\sqrt{y}$ to be plugged into the $e^{-\frac{x^2}{2}}$ part of the normal $pdf$); and remembering to in include $\frac{1}{\sqrt{y}}$ at the end:

$$ f_X(y)= F_X'(\sqrt[]{y})\,\frac{1}{\sqrt[]{y}}= \frac{1}{\sqrt{2\pi}}\,e^{-\frac{y}{2}}\, \frac{1}{\sqrt[]{y}}=\frac{1}{\sqrt{2\pi}}\,e^{-\frac{y}{2}}\, y^{\frac{1}{2}- 1}$$

Compare to the pdf of the chi square:

$$ f_X(x)= \frac{1}{2^{\nu/2}\Gamma(\frac{\nu}{2})}e^{\frac{-x}{2}}x^{\frac{\nu}{2}-1}$$

Since $\Gamma(1/2)=\sqrt{\pi}$, for $1$ df, we have derived exactly the $pdf$ of the chi square.

Further, if we call the function prop.test() in R we are invoking the same $\chi^2$ prueba como si nos decidimos a chisq.test().

LA PREGUNTA:

Por lo tanto, obtener todos estos puntos, sin embargo, todavía no sé cómo se aplican a la implementación real de estas dos pruebas por dos razones:

  1. Una prueba z no es cuadrado.

  2. El real de la estadística de prueba son completamente diferentes:

El valor de la prueba estadística para un $\chi^2$ es:

$\chi^2 = \sum_{i=1}^{n} \frac{(O_i - E_i)^2}{E_i} = N \sum_{i=1}^n p_i \left(\frac{O_i/N - p_i}{p_i}\right)^2$ donde

$\chi^2$ = Pearson acumulativo del estadístico de prueba, que asintóticamente enfoques $\chi^2$ distribución. $O_i$ = el número de observaciones de tipo $i$; $N$ = número total de observaciones; $E_i$ = $N p_i$ = la espera (teórico) de frecuencia de tipo $i$, afirma la hipótesis nula de que la fracción de tipo $i$ en la población de es $p_i$; $n$ = el número de celdas de la tabla.

Por otro lado, el estadístico de prueba para un $z$-prueba es:

$ \displaystyle Z = \frac{\frac{x_1}{n_1}-\frac{x_2}{n_2}}{\sqrt{p\,(1-p)(1/n_1+1/n_2)}}$ $\displaystyle p = \frac{x_1\,+\,x_2}{n_1\,+\,n_2}$ donde $x_1$ $x_2$ el número de "éxitos", sobre el número de sujetos en cada uno de los niveles de las variables categóricas, es decir,$n_1$$n_2$.

Esta fórmula parece depender de la distribución binomial.

Estas dos pruebas estadísticas son claramente diferentes, y producir resultados diferentes para la prueba real de estadísticas, así como para los p-valores: 5.8481 de la $\chi^2$ e 2.4183 para la prueba z, donde: $\small 2.4183^2=5.84817$ (gracias, @mark999). El p-valor para el $\chi^2$ prueba es 0.01559, mientras que para la prueba z es 0.0077. La diferencia se explica por dos colas frente a una cola: $\small 0.01559/2=0.007795$ (gracias @ameba).

A qué nivel podemos decir que son uno y el mismo?

20voto

Uri Puntos 111

Vamos a tener un 2x2 tabla de frecuencia, donde las columnas son los dos grupos de encuestados y las filas son las dos respuestas "Sí" y "No". Y hemos llegado a las frecuencias en las proporciones dentro del grupo, es decir, en la vertical de los perfiles:

      Gr1   Gr2  Total
Yes   p1    p2     p
No    q1    q2     q
      --------------
     100%  100%   100%
      n1    n2     N

La costumbre (no corregido de Yates) $\chi^2$ de esta tabla, después de sustituir las proporciones en lugar de las frecuencias en su fórmula, se parece a esto:

$$n_1[\frac{(p_1-p)^2}{p}+\frac{(q_1-q)^2}{q}]+n_2[\frac{(p_2-p)^2}{p}+\frac{(q_2-q)^2}{q}]= \frac{n_1(p_1-p)^2+n_2(p_2-p)^2}{pq}.$$

Remember that $p= \frac{n_1p_1+n_2p_2}{n_1+n_2}$, the element of the weighted average profile of the two profiles (p1,q1) and (p2,q2), and plug it in the formula, to obtain

$$...= \frac{(p_1-p_2)^2(n_1^2n_2+n_1n_2^2)}{pqN^2}$$

Divide both numerator and denominator by the $(n_1^2n_2+n_1n_2^2)$ and get $$\frac{(p_1-p_2)^2}{pq(1/n_1+1/n_2)}=Z^2,$$

the squared z-statistic of the z-test of proportions for "Yes" response.

Thus, the 2x2 homogeneity Chi-square statistic (and test) is equivalent to the z-test of two proportions. The so called expected frequencies computed in the chi-square test in a given column is the weighted (by the group n) average vertical profile (i.e. the profile of the "average group") multiplied by that group's n. Thus, it comes out that chi-square tests the deviation of each of the two groups profiles from this average group profile, - which is equivalent to testing the groups' profiles difference from each other, which is the z-test of proportions.

This is one demonstration of a link between a variables association measure (chi-square) and a group difference measure (z-test statistic). Attribute associations and group differences are (often) the two facets of the same thing.


(Showing the expansion in the first line above, By @Antoni's request):

$n_1[\frac{(p_1-p)^2}{p}+\frac{(q_1-q)^2}{q}]+n_2[\frac{(p_2-p)^2}{p}+\frac{(q_2-q)^2}{q}] = \frac{n_1(p_1-p)^2t}{pq}+\frac{n_1(q_1-q)^2}{pq}+\frac{n_2(p_2-p)^2t}{pq}+\frac{n_2(q_2-q)^2}{pq} = \frac{n_1(p_1-p)^2(1-p)+n_1(1-p_1-1+p)^2p+n_2(p_2-p)^2(1-p)+n_2(1-p_2-1+p)^2}{pq} = \frac{n_1(p_1-p)^2(1-p)+n_1(p-p_1)^2p+n_2(p_2-p)^2(1-p)+n_2(p-p_2)^2}{pq} = \frac{[n_1(p_1-p)^2][(1-p)+p]+[n_2(p_2-p)^2][(1-p)+p]}{pq} = \frac{n_1(p_1-p)^2+n_2(p_2-p)^2}{pq}.$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X