17 votos

¿Impacto de los límites de base de datos bin en una Chi-cuadrado de bondad de ajuste prueba?

Dejando de lado el obvio problema de la energía baja de la chi-cuadrado en este tipo de circunstancia, imagina que estás haciendo un chi-cuadrado de bondad de prueba para la densidad con parámetros no especificados, por agrupamiento de los datos.

Para la concreción, digamos una distribución exponencial con una desconocida media y un tamaño de muestra de decir 100.

Con el fin de obtener un razonable número esperado de observaciones por bin algo que tendría que ser tomada de los datos (por ejemplo, si decidimos poner 6 cubos debajo de la media y 4 por encima de él, que todavía sería el uso de datos basados bin límites).

Pero este uso de los intervalos basados en ver los datos de suponer que afectan a la distribución de la estadística de prueba bajo el null.

He visto un montón de discusión sobre el hecho de que - si los parámetros son estimados por máxima verosimilitud de la binned de datos - usted pierde 1 d.f por cada parámetro estimado (un problema que data de Fisher vs Karl Pearson) - pero no recuerdo haber leído nada acerca de encontrar el bin límites basados en los datos. (Si el cálculo de la no combinada de datos, luego con $k$ papeleras de la distribución del estadístico de prueba se encuentra en algún lugar entre un $\chi^2_{k}$$\chi^2_{k-p}$.)

No esta basada en datos de la elección de las papeleras de tener un impacto sustancial nivel de significación o el poder? Hay algunos enfoques que importa más que los otros? Si no es mucho de un efecto, es algo que va en muestras grandes?

Si tiene un impacto sustantivo, esto parecería tener el uso de una prueba de chi-cuadrado cuando los parámetros son desconocidos casi inútil en muchos casos (a pesar de todavía ser defendido en algunos textos), a menos que usted tenía un buen a-priori de la estimación del parámetro.

La discusión de los temas o punteros a las referencias (de preferencia con una mención de sus conclusiones), sería útil.


Edición, bastante de un lado a la pregunta principal:

Se me ocurre que hay posibles soluciones para el caso específico de la exponencial* (y el uniforme llegado a pensar en ello), pero todavía estoy interesado en la cuestión más general de la impacto de la elección de bin límites.

* Por ejemplo, para la exponencial, se podría utilizar la menor observación (dicen que es igual a $m$) para obtener una idea muy aproximada de dónde colocar los contenedores (desde el más pequeño de observación es exponencial con media de$\mu/n$) y, a continuación, probar el resto de $n-1$ diferencias ($x_i - m$) para exponentiality. Por supuesto que podría producir una muy baja estimación de $\mu$, y por lo tanto buenos bin opciones, aunque supongo que uno podría usar el argumento de forma recursiva con el fin de tomar el menor de dos o tres observaciones de las cuales para elegir razonable contenedores y, a continuación, la prueba de las diferencias del resto de las observaciones por encima de los más grandes de los más pequeños de estadísticas de orden para exponentiality)

14voto

giulio Puntos 166

Los resultados básicos de la chi-cuadrado de bondad de ajuste de prueba puede ser entendido de forma jerárquica.

Nivel 0. El clásico de Pearson chi-cuadrado de la prueba estadística para la prueba de una multinomial muestra en contra de una probabilidad fija de vectores $p$ es $$ X^2(p) = \sum_{i=1}^k \frac {X^{(n)}_i - n p_i)^2}{n p_i} \stackrel{d} {\} \chi_{k-1}^2 \>, $$ donde $X_i^{(n)}$ indica el número de resultados en la $i$th de células de una muestra de tamaño $n$. Esto puede lograrse visto como el cuadrado de la norma del vector $\mathbf Y_n = (Y_1^{(n)},\ldots,Y_k^{(n)})$ donde $Y_i^{(n)} = (X_i^{(n)} - n p_i)/\sqrt{n p_i}$ que, por el multivariante teorema del límite central converge en distribución como $$ \mathbf Y_n \stackrel{d} {\} \mathcal N(0, \mathbf I - \sqrt{p}\sqrt{p}^T) \>. $$ De esto podemos ver que $X^2 = \|\mathbf Y_n\|^2 \to \chi^2_{k-1}$ desde $\mathbf I - \sqrt{p}\sqrt{p}^T$ es idempotente de rango $k-1$.

Nivel 1. En el siguiente nivel de la jerarquía, consideramos compuesto de hipótesis con multinomial muestras. Desde el exacto $p$ de interés es desconocido bajo la hipótesis nula, tenemos que estimar. Si la hipótesis nula es compuesto y compuesto de un lineal subespacio de dimensión $m$, entonces el máximo de estimaciones de probabilidad (o de otros estimadores eficientes) de la $p_i$ puede ser utilizado como "plug-in" de los estimadores. Entonces, la estadística $$ X^2_1 = \sum_{i=1}^k \frac {X^{(n)}_i - n \hat{p}_i)^2}{n \hat{p}_i} \stackrel{d} {\} \chi_{k-m - 1}^2 \>, $$ bajo la hipótesis nula.

Nivel 2. Considere el caso de la bondad de las pruebas de ajuste de un modelo paramétrico, donde las células son fijas y conocidas de antemano: Por ejemplo, tenemos una muestra de una distribución exponencial con una tasa de $\lambda$ y de esto se produce una multinomial de la muestra por hurgar en la basura con $k$ células, entonces el resultado anterior aún se mantiene, siempre que el uso eficiente de las estimaciones (por ejemplo, Emv) de la papelera de probabilidades, utilizando sólo las frecuencias observadas.

Si el número de parámetros para la distribución es $m$ (por ejemplo, $m = 1$ en el exponencial caso), entonces $$ X^2_2 = \sum_{i=1}^k \frac {X^{(n)}_i - n \hat{p}_i)^2}{n \hat{p}_i} \stackrel{d} {\} \chi_{k-m - 1}^2 \>, $$ donde aquí $\hat{p}_i$ puede ser llevado a ser la Emv de la célula de las probabilidades de la fija, las células conocidas correspondiente a la distribución dada de interés.

Nivel 3. Pero, ¡espera! Si tenemos una muestra $Z_1,\ldots,Z_n \sim F_\lambda$, ¿por qué no hemos de estimar la $\lambda$ eficiente en primer lugar, y, a continuación, utilizar un estadístico de chi-cuadrado con nuestro fijo, las células conocidas? Así, se puede, pero en general ya no estamos en una distribución de la chi cuadrado para el correspondiente estadístico de chi-cuadrado. De hecho, Chernoff y Lehmann (1954) demostraron que el uso de Emv para la estimación de los parámetros y, a continuación, a enchufarlos para obtener las estimaciones de las células de las probabilidades de los resultados en un no-distribución de la chi cuadrado, en general. Bajo adecuadas condiciones de regularidad, la distribución es (estocástico) entre un $\chi_{k-m-1}^2$ $\chi_{k-1}^2$ variable aleatoria con la distribución en función de los parámetros.

Untuitively, esto significa que la limitación de la distribución de $\mathbf Y_n$$\mathcal N(0, \mathbf I - \sqrt{p_\lambda}\sqrt{p_\lambda}^T - \mathbf A(\lambda))$.

Aún no hemos hablado de azar con los límites de celda sin embargo, y ya estamos en un poco de un aprieto! Hay dos maneras: Una es a retroceder al Nivel 2, o al menos no de uso eficiente de los estimadores (como Emv) de la base de parámetros de $\lambda$. El segundo enfoque es tratar de deshacer los efectos de las $\mathbf A(\lambda)$ de tal manera como para recuperar un chi-cuadrado de distribución.

Hay varias maneras de ir a la última ruta. Básicamente, la cantidad a premultiplying $\mathbf Y_n$ por el "derecho" de la matriz $\mathbf B(\hat{\lambda})$. Entonces, la forma cuadrática $$ \mathbf Y_n^T \mathbf B^T \mathbf B \mathbf Y_n \stackrel{d} {\} \chi_{k-1}^2 \>, $$ donde $k$ es el número de células.

Ejemplos de ello son el Rao–Robson–Nikulin estadística y la Dzhaparidze–Nikulin estadística.

Nivel 4. Al azar de las células. En el caso de random células, bajo ciertas condiciones de regularidad, terminamos en la misma situación que en el Nivel 3 si tomamos la ruta de la modificación de la prueba de Pearson estadístico de chi-cuadrado. Ubicación-de la escala de las familias, en particular, se comportan muy bien. Un enfoque común es tomar nuestra $k$ células cada uno tiene probabilidad de $1/k$, nominalmente. Así, aleatorios, las células son los intervalos de la forma $\hat{I}_j = \hat \mu + \hat\sigma I_{0,j}$ donde $I_{0,j} = [F^{-1}((j-1)/k), F^{-1}(j/k))$. Este resultado ha sido ampliado para el caso de que el número aleatorio de células crece con el tamaño de la muestra.

Referencias

  1. Un W. van der Vaart (1998), Asintótica Estadísticas, Cambridge University Press. Capítulo 17: El Test De Chi Cuadrado.

  2. H. Chernoff y E. L. Lehmann (1954), el uso de La máxima de estimaciones de probabilidad en $\chi^2$ pruebas de bondad de ajuste, Ann. De matemáticas. Estatismo., vol. 25, no. 3, 579-586.

  3. F. C. Drost (1989), Generalizada de la chi-cuadrado de bondad de ajuste de las pruebas para la ubicación de los modelos a escala cuando el número de clases que tiende a infinito, Ann. Stat, vol. 17, no. 3, 1285-1300.

  4. M. S. Nikulin, M. S. (1973), La prueba de Chi-cuadrado para la distribución continua con cambio y la escala de los parámetros, la Teoría de la Probabilidad y sus Aplicaciones, vol. 19, no. 3, 559-568.

  5. K. O. Dzaparidze y M. S. Nikulin (1973), Sobre la modificación de la norma estadística de Pearson, la Teoría de la Probabilidad y sus Aplicaciones, vol. 19, no. 4, 851-853.

  6. K. C. Rao y D. S. Robson (1974), Un estadístico de chi-cuadrado para la bondad de ajuste de las pruebas dentro de los exponencial de la familia, Comm. Estatismo., vol 3., no. 12, 1139-1153.

  7. N. Balakrishnan, V. Voinov y M. S. Nikulin (2013), Chi-Cuadrado de Bondad de Ajuste de las Pruebas Con las Aplicaciones, Academic Press.

5voto

AdamSane Puntos 1825

He encontrado, al menos parcial, de las respuestas a mi pregunta, a continuación. (Yo todavía deseas dar a alguien que bono, por lo que cualquier información adicional apreciado.)

Moore (1971) dijo que Roy (1956) y Watson (1957,58,59) mostraron que cuando los límites de la celda para un estadístico de chi-cuadrado son funciones de la mejor asintótica normal estimado valores de los parámetros, a continuación, bajo ciertas condiciones, la nula distribución asintótica de la estadístico de chi-cuadrado sigue siendo el de una suma de $\chi^2_{k-p-1}$ y un promedio ponderado de suma de $p$ $\chi^2_1$ variables ($k$células, $p$ parámetros) donde los pesos son entre 0 y 1 (haciendo que la cdf de la la distribución entre los que de una$\chi^2_{k-p}$$\chi^2_{k}$, como dije en mi pregunta para la distribución cuando se utiliza estimación ML), y los pesos en los últimos $p$ términos no son afectados por la estimación.

Referencias

Moore D. S. (1971), Un Estadístico de Chi-Cuadrado con el Azar de la Célula Límites, Ann. De matemáticas. Stat., Vol 42, No 1, 147-156.

Roy A. R. (1956), En $\chi^2$ estadísticas con intervalos variables, Informe técnico Nº 1, Departamento de Estadística, Universidad de Stanford.

Watson, G. S. (1957), El $\chi^2$ bondad de ajuste de prueba para el normal distribuciones, Biometrika, 44, 336-348.

Watson, G. S. (1958), En $\chi^2$ bondad de ajuste de las pruebas para continua distribuciones, J. Real Estatista. Soc. B, 20, 44-61.

Watson, G. S. (1959), Algunos resultados recientes en $\chi^2$ bondad de ajuste las pruebas, Biometría, 15, 440-468

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X