8 votos

¿Por qué una prueba de bondad de ajuste utiliza la distribución chi cuadrado en lugar de la distribución hipotética?

Esta es una pregunta de deberes. Conozco la respuesta pero no la entiendo.

Si tuviéramos que responder a la pregunta "¿Son igual de comunes 5 grupos diferentes de mamíferos?", ¿qué prueba realizarías?

La respuesta es: prueba de bondad de ajuste a una distribución Chi-cuadrado.

¿Por qué?

¿Por qué una distribución Chi-cuadrado? Preferiría que la hipótesis nula fuera que todos los grupos son igual de comunes, por lo que la abundancia se distribuiría uniformemente. Calcularía un valor chi-cuadrado utilizando $\frac{N}{5}$ como valores esperados (para los 5 valores esperados), donde $N$ es el número total de individuos observados. ¿No sería correcto? Por lo tanto, haría una prueba g-o-f a una distribución uniforme, ¿no es así?

0 votos

Tiene razón en cuanto a la hipótesis nula, pero ¿cómo la comprobaría exactamente?

0 votos

@whuber Yo calcularía un valor chi-cuadrado utilizando $\frac{N}{5}$ como valores esperados (para los 5 valores esperados), donde $N$ es el número total de individuos observados. ¿No sería correcto? Por lo tanto, haría una prueba g-o-f a una distribución uniforme, ¿no? Gracias.

0 votos

¿Cuál es tu pregunta, entonces? Con la edición pregunta por qué un $\chi^2$ prueba GOF y, a continuación, explica por qué debe utilizarse una $\chi^2$ Debe utilizarse la prueba GOF. Parece que no hay nada más que decir.

12voto

Silverfish Puntos 6909

Hay dos distribuciones diferentes en juego: la distribución de su datos (o, en sentido estricto, la distribución hipotética de la población de la que se extraen), y la distribución de su estadística de prueba bajo el supuesto de que la hipótesis nula es correcta. Se trata de una pequeña sutileza que, en mi opinión, puede sorprender a los principiantes, pero, de hecho, suele ocurrir que la distribución nula de la estadística de prueba es bastante diferente de la distribución (hipotética o real) de los datos.

Utilizar una prueba de bondad de ajuste chi-cuadrado significa que si su hipótesis nula es cierta, entonces su estadística de prueba , $\chi^2 = \sum_{i=1}^n {\frac{(O_i - E_i)}{E_i}^2}$ seguiría una distribución ji cuadrada (al menos, aproximadamente; es posible que oiga decir que es "asintótica", es decir, que para muestras grandes debería acercarse lo suficiente a la ji cuadrada a efectos prácticos). Por eso se utilizan las tablas de distribución chi cuadrado. Recuerde que $\chi^2$ es mayor si sus datos se ajustan mal a la distribución hipotetizada, ya que en este caso el cuadrado de la diferencia entre las frecuencias esperadas y observadas, el $(O_i - E_i)^2$ en los numeradores, es grande. Por tanto, si $\chi^2$ es mayor que el valor crítico de las tablas, se tienen pruebas significativas contra la hipótesis nula, en el sentido de que a $\chi^2$ tan grande, y por tanto un ajuste tan pobre, sería improbable si el modelo hipotetizado fuera cierto.

Nada de esto significa que su datos se distribuye chi al cuadrado, o que esperas que sea así. Las frecuencias esperadas $E_i$ utilizado en el $\chi^2$ cálculo se basan en que la población tenga la distribución que se especifique según $H_0$ .

Podemos analizarlo con más detalle. Supongamos que $H_0$ es verdadera, por lo que las frecuencias esperadas son "correctas" (puede que no coincidan exactamente con las frecuencias observadas, pero si tomáramos cientos de muestras y tabuláramos cada una de ellas, entonces en cada categoría la media de nuestras frecuencias observadas debería estar muy próxima a la esperada), entonces la cantidad $\frac{O_i - E_i}{\sqrt{E_i}}$ se comportará aproximadamente como una puntuación z para esa celda. La suma de todas las celdas de $\sum_{i=1}^n {\frac{(O_i - E_i)}{E_i}^2}$ es entonces, aproximadamente, la suma de las puntuaciones z al cuadrado. Quizás ya sepa que la variable aleatoria chi-cuadrado con $\nu$ grados de libertad, $\chi^2_\nu$ es la suma de los cuadrados de $\nu$ variables normales estándar independientes. Ahora puede ver que, siempre que los datos procedan de una población cuya distribución coincida con el modelo nulo, la estadística de la prueba seguirá aproximadamente una distribución ji-cuadrado.

En realidad, las cosas son un poco más complicadas: como el total de las frecuencias esperadas es igual al total de las frecuencias observadas, el total de $O_i - E_i$ debe ser cero. Por lo tanto, el valor de $O_i - E_i$ en la última celda está completamente determinada por lo ocurrido en las celdas anteriores, por lo que nuestras "puntuaciones z" no eran del todo independientes. Afortunadamente, podemos compensarlo restando uno a los grados de libertad, lo que explica por qué en su caso, con 5 celdas en la tabla y, por tanto, 5 valores de $\frac{(O_i - E_i)^2}{E_i}$ en su suma, compararía su estadística de prueba con el valor crítico que aparece en las tablas para $\chi^2_4$ . Si su estadística de prueba está por encima del valor crítico, esto le indica que es poco probable que la suma de las puntuaciones z cuadradas sea tan alta. Si la hipótesis nula fuera cierta, el estadístico de la prueba debería comportarse como la suma de las puntuaciones z al cuadrado, por lo que el hecho de que sea tan alto constituye una prueba en contra de la hipótesis nula, es decir, sugiere que la población no sigue la distribución de la hipótesis.

$*$ La primera prueba de hipótesis que mucha gente aprende es la prueba Z para la media, en la que los datos se extraen de una distribución normal de varianza conocida. $\sigma^2$ y la hipótesis nula es $H_0: \mu = \mu_0$ . En este caso, las tres distribuciones de la población, la media muestral y la puntuación z (el estadístico de la prueba) se distribuyen normalmente. Pero esto no suele ocurrir con las pruebas de hipótesis en general. Además, para la prueba Z, suponiendo que la hipótesis nula sea cierta, sus distribuciones son $X \sim \mathcal{N}(\mu_0, \sigma^2)$ , $\bar{X} \sim \mathcal{N}(\mu_0, \frac{\sigma^2}{n})$ y $Z \sim \mathcal{N}(0, 1)$ . Por lo tanto, un examen más detallado nos permite ver que, incluso en este caso, las distribuciones de los datos y de la estadística de prueba son bastante diferentes después de todo.

2 votos

+1 Podría ayudar un poco a la comprensión de sus lectores señalar que la estadística de prueba sólo aproximadamente tiene un $\chi^2$ distribución. De hecho, la estadística de prueba puede verse como una forma de combinar cinco $Z$ estadísticas de la forma $(O_i-E_i)/\sqrt{E_i}$ una para cada grupo, en una única estadística global que refleje los cinco grupos. $Z$ de una vez. De este modo, un atisbo de la conexión con la teoría Normal en su último párrafo puede mostrar a través de la fórmula de otra manera misteriosa.

1 votos

@whuber Estuve tentado de hacerlo, puede que lo exponga todavía, pero espero que tu comentario aporte alguna idea al menos. Enseño regularmente este tema a los estudiantes de secundaria y me parece que lo que más les desconcierta es que hay dos distribuciones completamente diferentes en juego, cada una sirviendo a un propósito completamente diferente. Si he conseguido comunicar claramente por qué las dos son distintas, ¡habré logrado el objetivo principal!

1 votos

@whuber Cierto, he añadido un poco. ¡Un poco a mano sobre los grados de libertad, pero creo que en el nivel introductorio este es probablemente el mejor enfoque! Para el beneficio de los futuros lectores, ¿tenemos ya algunas buenas preguntas y respuestas sobre el ajuste de los grados de libertad que se podrían vincular en la respuesta?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X