23 votos

¿Por qué se utiliza el chi cuadrado al crear un intervalo de confianza para la varianza?

Esta es una pregunta muy básica. ¿Por qué utilizamos una distribución chi-cuadrado? ¿Qué significa esta distribución? ¿Por qué es la distribución utilizada para crear un intervalo de confianza para la varianza?

Cada lugar que busco en Google para una explicación sólo presenta este hecho, explicando cuándo usar el chi, pero no explicando por qué utilizar el chi, y por qué tiene el aspecto que tiene.

Muchas gracias a quien me pueda orientar en la dirección correcta y es - entender realmente por qué estoy usando chi cuando estoy creando un intervalo de confianza para la varianza.

8 votos

Se utiliza porque - cuando los datos son normales - $Q = (n-1)\frac{s^2}{\sigma^2}\sim \chi^2_{n-1}$ . (Esto hace que $Q$ una cantidad fundamental)

2 votos

Ver también stats.stackexchange.com/questions/15711/ y sus enlaces.

3 votos

Para aquellos que estén interesados en las aplicaciones o en seguir investigando sobre $\chi^2$ En el caso de que se trate de un proyecto de ley, deberá prestar atención a la distinción entre un $\chi^2$ ("chi-cuadrado") y una distribución $\chi$ ("chi") (es la raíz cuadrada de un $\chi^2$ (no es de extrañar).

27voto

Andrew Puntos 126

Respuesta rápida

La razón es que, asumiendo que los datos son i.i.d. y $X_i\sim N(\mu,\sigma^2)$ y definiendo \begin{eqnarray*} \bar{X}&=&\sum^N \frac{X_i}{N}\\ S^2 &=& \sum^{N} \frac{(\bar{X}-X_i)^2}{N-1} \end{eqnarray*} al formar los intervalos de confianza, la distribución muestral asociada a la varianza de la muestra ( $S^2$ (recuerde, ¡una variable aleatoria!) es una distribución chi-cuadrado ( $S^2(N-1)/\sigma^2 \sim \chi^2_{n-1}$ ), al igual que la distribución muestral asociada a la media de la muestra es una distribución normal estándar ( $(\bar{X}-\mu)\sqrt{n}/\sigma \sim Z(0,1)$ ) cuando se conoce la varianza, y con una t-student cuando no se conoce ( $(\bar{X}-\mu)\sqrt{n}/S \sim T_{n-1}$ ).

Respuesta larga

En primer lugar, vamos a demostrar que $S^2(N-1)/\sigma^2$ sigue una distribución chi-cuadrado con $N-1$ grados de libertad. A continuación, veremos la utilidad de esta prueba a la hora de derivar los intervalos de confianza para la varianza, y cómo aparece la distribución chi-cuadrado (¡y por qué es tan útil!). Comencemos.

La prueba

Para ello, tal vez deba acostumbrarse a la distribución chi-cuadrado en este Artículo de Wikipedia . Esta distribución sólo tiene un parámetro: los grados de libertad, $\nu$ y resulta que tiene una función generadora de momentos (MGF) dada por: \begin{equation*} m_{\chi^2_\nu}(t)=(1-2t)^{-\nu/2}. \end{equation*} Si podemos demostrar que la distribución de $S^2(N-1)/\sigma^2$ tiene una función generadora de momentos como ésta, pero con $\nu=N-1$ entonces hemos demostrado que $S^2(N-1)/\sigma^2$ sigue una distribución chi-cuadrado con $N-1$ grados de libertad. Para demostrarlo, hay que tener en cuenta dos hechos:

  1. Si definimos, \begin{equation*} Y = \sum \frac{(X_i-\bar{X})^2}{\sigma^2} = \sum Z_i^2, \end{equation*} donde $Z_i\sim N(0,1)$ es decir, variables aleatorias normales, la función generadora de momentos de $Y$ viene dada por \begin{eqnarray*} m_Y(t) &=& \mathbb{E}[e^{tY}]\\ &=&\mathbb{E}[e^{tZ_1^2}]\times \mathbb{E}[e^{tZ_2^2}]\times ...\mathbb{E}[e^{tZ_N^2}]\\ &=&m_{Z_i^2}(t)\times m_{Z_2^2}(t)\times ...m_{Z_N^2}(t). \end{eqnarray*} El MGF de $Z^2$ viene dada por \begin{eqnarray*} m_{Z^2}(t) &=& \int_{-\infty}^{\infty} f(z)\exp(tz^2)dz\\ &=&(1-2t)^{-1/2}, \end{eqnarray*} donde he utilizado el PDF de la normal estándar, $f(z)=e^{-z^2/2}/\sqrt{2\pi}$ y, por lo tanto, \begin{equation*} m_Y(t)=(1-2t)^{-N/2}, \end{equation*} que implica que $Y$ sigue una distribución chi-cuadrado con $N$ grados de libertad .

  2. Si $Y_1$ y $Y_2$ son independientes y cada una se distribuye como una distribución chi-cuadrado pero con $\nu_1$ y $\nu_2$ grados de libertad, entonces $W=Y_1+Y_2$ se distribuye con una distribución chi-cuadrado con $\nu_1+\nu_2$ grados de libertad (esto se deduce de tomar el MGF de $W$ (¡hazlo!).

Con los datos anteriores, obsérvese que si se multiplica la varianza de la muestra por $N-1$ se obtiene (tras un poco de álgebra), \begin{equation*} (N-1)S^2 = -n(\bar{X}-\mu)+\sum(X_i-\mu)^2, \end{equation*} y, por lo tanto, dividiendo por $\sigma^2$ , \begin{equation*} \frac{(N-1)S^2}{\sigma^2}+\frac{(\bar{X}-\mu)^2}{\sigma^2/N}=\sum \frac{(X_i-\mu)^2}{\sigma^2}. \end{equation*} Obsérvese que el segundo término del lado izquierdo de esta suma se distribuye como una distribución chi-cuadrado con 1 grado de libertad, y la suma del lado derecho se distribuye como una chi-cuadrado con $N$ grados de libertad. Por lo tanto, $S^2(N-1)/\sigma^2$ se distribuye como un chi-cuadrado con $N-1$ grados de libertad .

Cálculo del intervalo de confianza para la varianza.

Cuando se busca un intervalo de confianza para la varianza, se desea conocer los límites $L_1$ y $L_2$ en \begin{equation*} \mathbb{P}\left(L_1\leq \sigma^2 \leq L_2\right) = 1-\alpha. \end{equation*} Juguemos con la desigualdad dentro del paréntesis. Primero, dividamos por $S^2(N-1)$ , \begin{equation*} \frac{L_1}{S^2(N-1)}\leq \frac{\sigma^2}{S^2(N-1)} \leq \frac{L_2}{S^2(N-1)}. \end{equation*} Y luego recuerda dos cosas: (1) la estadística $S^2(N-1)/\sigma^2$ tiene una distribución chi-cuadrado con $N-1$ grados de libertad y (2) las varianzas son siempre mayores que cero, lo que implica que se pueden invertir las desigualdades, porque \begin{eqnarray*} \frac{L_1}{S^2(N-1)}\leq \frac{\sigma^2}{S^2(N-1)} &\Rightarrow& \frac{S^2(N-1)}{\sigma^2}\leq \frac{S^2(N-1)}{L_1},\\ \frac{\sigma^2}{S^2(N-1)} \leq \frac{L_2}{S^2(N-1)} &\Rightarrow& \frac{S^2(N-1)}{L_2} \leq \frac{S^2(N-1)}{\sigma^2},\\ \end{eqnarray*} por lo tanto, la probabilidad que buscamos es: \begin{equation*} \mathbb{P}\left(\frac{S^2(N-1)}{L_2} \leq \frac{S^2(N-1)}{\sigma^2}\leq \frac{S^2(N-1)}{L_1}\right) = 1-\alpha. \end{equation*} Tenga en cuenta que $S^2(N-1)/\sigma^2 \sim \chi^2(N-1)$ . Queremos entonces, \begin{eqnarray*} \int_{\frac{S^2(N-1)}{L_2}}^{N-1}p_{\chi^2}(x)dx &=& (1-\alpha)/2\ \ \ ,\\ \int_{N-1}^{\frac{S^2(N-1)}{L_1}}p_{\chi^2}(x)dx &=& (1-\alpha)/2\ \ \, \end{eqnarray*} (integramos hasta $N-1$ porque el valor esperado de una variable aleatoria chi-cuadrado con $N-1$ grados de libertad es $N-1$ ) o, de forma equivalente, \begin{eqnarray*} \int_{0}^{\frac{S^2(N-1)}{L_2}}p_{\chi^2}(x)dx=\alpha/2,\\ \int_{\frac{S^2(N-1)}{L_1}}^{\infty}p_{\chi^2}(x)dx=\alpha/2. \end{eqnarray*} Llamando a $\chi^2_{\alpha/2}=\frac{S^2(N-1)}{L_2}$ y $\chi^2_{1-\alpha/2}= \frac{S^2(N-1)}{L_1}$ donde los valores $\chi^2_{\alpha/2}$ y $\chi^2_{1-\alpha/2}$ se puede encontrar en las tablas de chi-cuadrado (¡en los ordenadores principalmente!) y resolviendo para $L_1$ y $L_2$ , \begin{eqnarray*} L_1 &=& \frac{S^2(N-1)}{\chi^2_{1-\alpha/2}},\\ L_2 &=& \frac{S^2(N-1)}{\chi^2_{\alpha/2}}. \end{eqnarray*} Por lo tanto, su intervalo de confianza para la varianza es \begin{equation*} C.I.=\left(\frac{S^2(N-1)}{\chi^2_{1-\alpha/2}}, \frac{S^2(N-1)}{\chi^2_{\alpha/2}}\right). \end{equation*}

0 votos

Gracias por la respuesta detallada. Sin embargo, mi pregunta es mucho más básica: ¿por qué es (S2(N1)/2 la estadística y no S2? ¿Por qué esta estadística tiene una distribución Chi cuadrada? ¿Qué significa esto?

2 votos

Simplemente porque $S^2$ no sigue una distribución chi-cuadrado centrada, mientras que $S^2(N-1)/\sigma^2$ y, por lo tanto, es más fácil trabajar con él. ¿Está pidiendo una derivación para eso? (es decir, quieres que alguien te muestre que $S^2(N-1)/\sigma^2$ sigue una distribución chi-cuadrado con $N-1$ grados de libertad)

4 votos

Sería útil modificar esta respuesta para incluir el muy fuerte pero no se ha dicho que la varianza de la muestra sigue una distribución chi-cuadrado cuando los datos subyacentes son independiente y seguir una normal distribución. A diferencia de la teoría de la distribución de la media muestral, donde en la práctica su distribución muestral será aproximadamente Normal a una precisión razonable en muchas situaciones, este mismo comportamiento asintótico tiende a no ocurrir con la varianza de la muestra (hasta que los tamaños de las muestras se vuelven extremadamente grandes).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X