19 votos

¿Por qué de chi-cuadrado pruebas de uso de la cuenta esperada como la desviación estándar?

En $\chi^2$ de las pruebas, ¿cuál es la base para el uso de la raíz cuadrada de la esperada cuenta como las desviaciones estándar (es decir, la esperada cuenta como las desviaciones) de cada una de las distribuciones normales? La única cosa que pude encontrar discutir de todo esto es http://www.physics.csbsju.edu/stats/chi-square.htmly sólo menciona distribuciones de Poisson.

Como una simple ilustración de mi confusión, lo que si se prueba si dos procesos son significativamente diferentes, uno que genera 500 y 500 Bs con muy poca variación, y la otra, que genera 550 Como y 450 Bs con muy poca variación (rara vez la generación de 551 Como y 449 Bs)? No es la varianza aquí claramente no es simplemente el valor esperado?

(Yo no soy un estadístico, por lo que realmente busca de una respuesta que es accesible a los no especialistas.)

20voto

giulio Puntos 166

Vamos a manejar el caso más simple de tratar de proporcionar la mayoría de los la intuición. Deje $X_1, X_2, \ldots, X_n$ ser un iid muestra de una forma discreta distribución en $k$ de los resultados. Deje $\pi_1,\ldots,\pi_k$ ser el las probabilidades de cada resultado en particular. Estamos interesados en la (asintótica) de la distribución de la chi-cuadrado de estadística $$ X^2 = \sum_{i=1}^k \frac{(S_i - n \pi_i)^2}{n\pi_i} \> . $$ Aquí $n \pi_i$ que se espera que el número de cuenta de la $i$th resultado.

Una sugerente heurística

Definir $U_i = (S_i - n\pi_i) / \sqrt{n \pi_i}$, por lo que $X^2 = \sum_i U_i^2 = \newcommand{\U}{\mathbf{U}}\|\U\|^2_2$ where $\U = (U_1,\ldots,U_k)$.

Desde $S_i$$\mathrm{Bin}(n,\pi_i)$, luego por el Teorema Central del Límite, $$ \newcommand{\convd}{\xrightarrow{d}}\newcommand{\N}{\mathcal{N}} T_i = \frac{U_i}{\sqrt{1-\pi_i}} = \frac{S_i - n \pi_i}{\sqrt{ n\pi_i(1-\pi_i)}} \convd \N(0, 1) \>, $$ por lo tanto, también tenemos que, $U_i \convd \N(0, 1-\pi_i)$.

Ahora, si el $T_i$ fueron (asintóticamente) independiente (que no son), entonces se podría argumentar que $\sum_i T_i^2$ fue asintóticamente $\chi_k^2$ distribuido. Pero, tenga en cuenta que $T_k$ es una función determinista de $(T_1,\ldots,T_{k-1})$ $T_i$ variables no puede ser independiente.

Por lo tanto, debemos de tomar en cuenta la covarianza entre ellos de alguna manera. Resulta que la manera "correcta" de hacer esto es utilizar el $U_i$ en su lugar, y la covarianza entre los componentes de $\U$ también cambios en la distribución asintótica de lo que podría haber pensado en $\chi_{k}^2$ a lo que es, de hecho, una $\chi_{k-1}^2$.

Algunos detalles sobre esto siga.

Un más riguroso tratamiento

No es difícil comprobar que, de hecho, $\newcommand{\Cov}{\mathrm{Cov}}\Cov(U_i, U_j) = - \sqrt{\pi_i \pi_j}$ for $i \neq j$.

Así, la covarianza de $\U$ es $$ \newcommand{\sqpi}{\sqrt{\boldsymbol{\pi}}} \newcommand{\A}{\mathbf{A}} \ = \Mathbf{I} - \sqpi \sqpi^T \>, $$ donde $\sqpi = (\sqrt{\pi_1}, \ldots, \sqrt{\pi_k})$. Tenga en cuenta que $\A$ es simétrica e idempotente, es decir, $\A = \A^2 = \A^T$. So, in particular, if $\newcommand{\Z}{\mathbf{Z}}\Z = (Z_1, \ldots, Z_k)$ has iid standard normal components, then $\A \Z \sim \N(0, \A)$. (NB multivariante de la distribución normal en este caso es degenerado.)

Ahora, por el Multivariante Teorema del Límite Central, el vector $\U$ ha un asintótica multivariante distribución normal con media de $0$ y la covarianza $\A$.

Por eso, $\U$ tiene la misma distribución asintótica como $\A \Z$, por lo tanto, la misma distribución asintótica de $X^2 = \U^T \U$ es la misma que la distribución de $\Z^T \A^T \A \Z = \Z^T \A \Z$ por la asignación continua teorema.

Pero, $\A$ es simétrica e idempotente, entonces (una) ha ortogonal los vectores propios, (b) todos sus autovalores son 0 o 1, y (c) la multiplicidad del autovalor de 1 es $\mathrm{rank}(\A)$. Esto significa que $\A$ puede ser descompuesto como $\A = \mathbf{Q D Q}^T$ donde $\mathbf{Q}$ es ortogonal y $\mathbf{D}$ es una matriz diagonal con $\mathrm{rank}(\A)$ unos en la diagonal y el resto de las entradas de la diagonal son cero.

Por lo tanto, $\Z^T \A \Z$ debe $\chi^2_{k-1}$ distribuidas desde la $\A$ rango $k-1$ en nuestro caso.

Otras conexiones

El estadístico de chi-cuadrado también está estrechamente relacionado con el cociente de probabilidad estadísticas. De hecho, es un Rao puntuación de estadística y puede ser visto como un Taylor-series de aproximación del cociente de probabilidad estadística.

Referencias

Este es mi propio desarrollo basado en la experiencia, pero obviamente influenciado por los textos clásicos. Buenos lugares para buscar a aprender más, están

  1. G. A. F. Seber y A. J. Lee (2003), el Análisis de Regresión Lineal, 2ª ed., Wiley.
  2. E. Lehmann y J. Romano (2005), la Prueba Estadística de Hipótesis, 3ª ed., Springer. Sección 14.3 en particular.
  3. D. R. Cox y D. V. Hinkley (1979), Teórico de Estadísticas, Chapman and Hall.

20voto

Eero Puntos 1612

La forma general para muchos de la estadística de prueba es

$\frac{observed - expected}{standard error}$

En el caso de una variable normal el error estándar se basa en el conocido varianza de la población (z-stats) o la estimación de la muestra (t-estadísticas). Con el binomio el error estándar se basa en la proporción (la hipótesis de la proporción de pruebas).

En una tabla de contingencia de la cuenta en cada celda puede ser considerado como proveniente de una distribución de Poisson con una media igual al valor esperado (bajo la nula). La varianza de la distribución de Poisson es igual a la media, así que usar el valor esperado para el error estándar de cálculo así. He visto una estadística que utiliza el observado en su lugar, pero tiene menos justificación teórica y no converge así como a las $\chi^2$ distribución.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X