8 votos

Normalización para la prueba de Chi cuadrado

La fórmula del estadístico de la prueba Chi-cuadrado es la siguiente:

$\chi^2 = \sum_{i=1}^{n} \frac{(O_i - E_i)^2}{E_i}$

donde O - son los datos observados, y E - son los esperados.

Tengo curiosidad por saber por qué depende de los valores absolutos. Por ejemplo, si cambiamos las unidades que estamos midiendo obtendremos una estadística diferente. Supongamos que realizamos una prueba sobre el peso de las manzanas. Una de las muestras pesa 165 gramos, y esperamos que sea de 182 gramos, entonces la parte de la fórmula será:

$\frac{(165 - 182)^2}{182} \sim 1.58791$

http://en.wikipedia.org/wiki/Pearson's_chi-squared_test

Ahora supongamos que vivimos en un país donde la precisión está en la cima. Utilizamos miligramos para todo y obtenemos los mismos resultados en unidades diferentes: 165000 miligramos y 182000, respectivamente. La estadística:

$\frac{(165000 - 182000)^2}{182000} \sim 1587.91$

Así que nuestra conclusión será diferente según las unidades que hayamos utilizado. ¿Por qué? ¿Qué me falta y por qué los valores no están normalizados en la prueba de Chi-cuadrado?

9voto

Philip Fourie Puntos 12889

En la versión de esta prueba que conozco, los datos individuales son categórico no cuantitativo como sus ejemplos. Y los valores esperados y observados deben ser frecuencias de alguna categoría (un recuento de cuántas veces se produce), no una medida cuantitativa de un individuo. Los números que entran en el $E_i$ y $O_i$ Las posiciones no tienen unidad, ya que sólo son recuentos.

Así, por ejemplo, en una caja con mezcla de frutas, tal vez 12 piezas eran plátanos, pero usted esperaba que 15 fueran plátanos. Tendrá el término $$\frac{(12-15)^2}{15}$$ y no hay forma de reescalar las unidades como lo has hecho tú. Escribir $$\frac{(12000-15000)^2}{15000}$$ correspondería a un muy escenario diferente. Allí habrías visto 12000 plátanos cuando esperabas 15000. Y el correspondiente $P$ valor debe ser mucho más pequeño, porque debe es mucho menos probable que se equivoque en 3000 de 15000 que en 3 de 15, si se tiene en cuenta la variación de una pieza de fruta a otra en sus posibilidades de ser un plátano. Así que $\chi^2$ debe ser mucho mayor en este último caso.

0 votos

Dado que estamos elevando al cuadrado la diferencia entre dos recuentos, ¿por qué no se eleva también al cuadrado el factor de normalización del denominador?

1voto

Beojan Puntos 11

La definición de $\chi^2$ que está utilizando es para comparar frecuencias , no medidas con unidades. En el último caso, se divide por el cuadrado del error, no por el valor en sí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X