Estoy obteniendo un valor de chi-cuadrado de 1600 para un dato, ¿es posible obtener este valor tan grande para un chi-cuadrado? para un riesgo aceptable del 5% y 5 grados de libertad el valor crítico debería ser 11.070 y estoy obteniendo 1600. ¿Significa eso que rechazo la hipótesis nula que significa que los datos están distribuidos uniformemente?
Respuesta
¿Demasiados anuncios?Esto es por diseño: cuando la hipótesis nula es falsa, se quiere la estadística de la prueba para ser inusual. Chi-cuadrado ( $\chi^2$ ) pueden llegar a ser extraordinariamente grandes cuando los datos no se ajustan a sus hipótesis. No existe un límite máximo para su tamaño.
Te lo explicaré.
Cinco grados de libertad implican que se han estimado los recuentos esperados en al menos seis categorías (y quizá muchas más). El $\chi^2$ es la suma de las contribuciones de todas las categorías (a las que también me referiré como "celdas" o "franjas"). Cada contribución es una proporción: en la parte superior, el numerador es la diferencia al cuadrado entre el recuento observado y el recuento esperado; en la parte inferior, el denominador es el recuento esperado. Podemos jugar un poco con la aritmética para ver qué ocurre.
Por lo general, $\chi^2$ Las pruebas se consideran sospechosas siempre que cualquier recuento esperado sea inferior a $5$ (aunque esto se puede relajar un poco), así que supongamos inicialmente que has comprobado esta condición y se aplica.
Para producir un $\chi^2$ estadística de $1600,$ el $6+$ Las células tendrían que aportar una cantidad media de $1600/6 \approx 270$ cada uno. Como cada denominador es al menos $5,$ esto significa que los numeradores deben tener un promedio de aproximadamente $5\times (1600/6) \approx 1300.$ Como los numeradores son diferencias al cuadrado, deducimos que las diferencias son del orden de $\sqrt {1300} \approx 36.$ Por último (¡vaya!), esto significa que al menos algunos valores observados deben estar en torno a $36+5\approx 40$ o mayor.
También es posible que una celda aporte la mayor parte del valor al total de $1600.$ Por ejemplo, razonando como antes, si su expectativa fuera $5$ y su recuento fueron $k,$ necesitaríamos
$$1600\approx \frac{(k-5)^2}{5},$$
que implica
$$k\approx 95.$$
Por último, señalaré que cuando una célula tiene una expectativa diminuta, no hace falta mucho para crear un valor enorme de $\chi^2.$ Por ejemplo, supongamos que el recuento esperado en una celda concreta es sólo $0.1.$ A continuación, un recuento de $13$ en esta célula contribuiría
$$\frac{(13-0.1)^2}{0.1} = 1664,$$
ya se está asegurando de que $\chi^2$ supera $1600.$ (Esto arroja luz sobre por qué las celdas con valores esperados diminutos pueden crear problemas para un $\chi^2$ prueba).
A partir de estas consideraciones podemos construir ejemplos.
Por ejemplo, supongamos que su teoría le dice un conjunto de $225$ los números deben tener una distribución normal estándar. Para comprobarlo, ha creado seis intervalos separados por los puntos de ruptura $-2,-1,0,1,2.$ La distribución normal estándar dice que los recuentos esperados en estas franjas son (aproximadamente) $5.1, 30.6, 76.8, 76.8, 30.6, 5.1.$ Supongamos, sin embargo, que La realidad se aleja sustancialmente de la teoría: concretamente, el proceso que genera los datos es Normal, pero en realidad tiene una media de $1.741$ y como resultado los recuentos que observó resultaron ser $0, 1, 9, 42, 84, 89.$ Ese último recuento de $89,$ donde sólo $5.1$ valores esperados, solo contribuye casi $1400$ a la $\chi^2$ estadística. (El $\chi^2$ para estos datos es $1606.8$ con cinco grados de libertad).
De este modo, el $\chi^2$ La prueba detecta los cambios de probabilidad entre las celdas y crecerá fácilmente cuando los datos sean inconsistentes con los valores esperados.