4 votos

¿Qué es una explicación intuitiva de cómo la distribución t, distribución normal, distribución de F y distribución Chi-cuadrado se relacionan entre sí?

¿Qué es una interfaz intuitiva explicación de por qué la distribución t, la distribución normal, distribución F y Chi-cuadrado de distribución se relacionan entre sí?

Podría alguien explicar esto claramente con un razonable ejemplo?

Yo soy biólogo y he estado tratando de entender esto casi 10 años. Cada vez el uso de las pruebas estadísticas sin una comprensión adecuada de la base. Los libros de texto no se refieren a esta cuestión, por otra parte, no estamos de matemáticas o de estadísticas especializadas en la universidad.

2voto

No está totalmente claro para mí precisamente lo que usted está buscando, pero supongamos $X_1,X_2,....,X_n$ son yo.yo.d. normalmente distribuidas variables aleatorias con una media de $\mu$ y la varianza $\sigma^2$,

  • la escritura de su promedio como $\bar{X}={\frac1n}\sum\limits_{i=1}^{n} X_i$, a continuación, $\dfrac{\bar{X} -\mu}{\sigma/\sqrt{n}}$ tiene una distribución normal estándar $N(0,1)$ lo que indica que la distribución de la media muestral

  • y $\sum\limits_{i=1}^{n} \left(\frac{X_i-\mu}{\sigma}\right)^2$ tiene un $\chi_n^2$-distribución, es decir, una distribución chi-squared con $n$ grados de libertad como la suma de los cuadrados de $n$ independiente aleatoria normal estándar variables

  • mientras que la estimación de la insesgados de varianza de la muestra como $S^2=\frac1{n-1}\sum\limits_{i=1}^{n} \left({X_i-\bar{X}}\right)^2$ ha $(n-1)\frac{S^2}{\sigma^2}$ tener un $\chi_{n-1}^2$-distribución, es decir, una distribución chi-squared con $n-1$ grados de libertad desde $\bar{X}$ es afectado por el individuo $X_i$

  • y si se examina la distribución de la media muestral tiene $\dfrac{\bar{X} -\mu}{S/\sqrt{n}}$ tener un Estudiante $t$-distribución con $n-1$ grados de libertad - no es lo mismo que la distribución normal estándar en el primer punto, pero cerca de grandes $n$; usted puede usar esto para probar la hipótesis de que la media de población es en realidad $\mu$ sin saber $\sigma^2$

  • como una herramienta de comparación de varianzas, si $Z_1 \sim \chi^2_{d_1}$ e independientemente $Z_2 \sim \chi^2_{d_2}$, es decir, han de chi-cuadrado distribuciones con $d_1$ e $d_2$ grados de libertad, entonces $\frac{Z_1 / d_1}{Z_2 / d_2} \sim \mathrm{F}(d_1, d_2)$, es decir, tiene un $F$-distribución con parámetros de $d_1$ e $d_2$

  • y, en particular, si $Y_1,Y_2,....,Y_m$ también yo.yo.d. normalmente distribuidas variables aleatorias con un medio diferente del $\mu_Y^{\,}$ , pero la misma varianza $\sigma^2$ como la anterior $X_i$, a continuación, utilizando el tercer punto, $\dfrac{\sum\limits_{i=1}^{n} \left({X_i-\bar{X}}\right)^2}{\sum\limits_{j=1}^{n} \left({Y_j-\bar{Y}}\right)^2}\sim \mathrm{F}(n-1, m-1)$, es decir, tiene un $F$-distribución con parámetros de $n-1$ e $m-1$ y usted puede utilizar esto como una prueba de la hipótesis de que las varianzas son iguales sin conocer su valor o el valor de los medios

Usted no puede saber que la $X_1,X_2,....,X_n$ son de hecho una distribución normal, pero el Teorema del Límite Central sugiere que un gran $n$ y finito $\mu$ e $\sigma^2$ usted debe tener $\bar{X}$ aproximadamente distribuidos normalmente como en la primera viñeta, que puede llegar a ser lo suficientemente bueno como para las otras propiedades, aunque para $n$ es demasiado pequeño no puede ser

2voto

Tim Almond Puntos 1887

La respuesta corta es la siguiente:

  • Mientras que la probabilidad de los estudios de las implicaciones que supone distribuciones de probabilidad, estadística evalúa la manera en que los datos confirman estas hipótesis, mediante la medición de algo cuya distribución es de lo predecible.
  • Las distribuciones que usted ha hecho sobre son importantes porque se puede construir pruebas estadísticas donde la hipótesis nula implica que tales distribuciones, aproximadamente, o de otra manera, son los de las cantidades llamado de la estadística de prueba, que si demasiado "anormal" en su valor motivar el rechazo de la hipótesis nula.
  • Dado $n$ variables independientes, cada una tiene una distribución Normal de media $0$ y la desviación estándar $1$ (de ahora en adelante una distribución Normal estándar), la suma de sus cuadrados tiene una distribución chi-squared con $n$ grados de libertad.
  • Si $X,\,Y$ son variables independientes, $X$ tener una distribución Normal estándar y $Y^2$ tener una distribución chi-squared, $X/Y$ tiene un $t$-distribución.
  • Si la escala de dos independientes de chi-cuadrado de las variables para cada uno tiene una desviación estándar $1$, la relación de estas variables escaladas tiene un $F$-distribución, de forma que el cuadrado de un $t$distribuido de la variable (en el que $Y$ ha $1$ grado de libertad, por lo que su desviación estándar es $1$) se obtiene un ejemplo de una $F$-variable de distribución.

Ahora para la respuesta larga:

Una distribución Normal especificada por su media $\mu$ (que puede ser elegido arbitrariamente) y su desviación estándar $\sigma$ (que puede ser cualquier número positivo). Si una variable aleatoria $X$ tiene una distribución, escribimos $X\sim N(\mu,\,\sigma^2)$, donde $\sigma^2$ es la varianza. El número de desviaciones estándar de la $\mu$ a $X$ es una variable aleatoria en su propio derecho, generalmente denotado $Z$, viz. $X=\mu+\sigma Z$. Resulta que $Z\sim N(0,\,1)$, es decir, se $Z$ tiene una distribución normal Estándar.

Hay varios escenarios en los que las variables aleatorias admitir una aproximación Normal. Por ejemplo, el clásico teorema del límite central (CLT), se establece que la media de un gran número de muestras independientes a partir de un número finito de la varianza en la distribución tiene una distribución aproximadamente Normal. Vamos a volver a eso. Para otro ejemplo, cuando se intenta ajustar un modelo a los datos, hay ruido términos de $\epsilon$ viz. $y=f(x)+\epsilon$, y a menudo podemos justificar la suposición de $\epsilon\sim N(0,\,\sigma^2)$ para algunos $\sigma>0$. Supongamos que tenemos $n$ observaciones. Si dividimos todo el ruido de los términos por $\sigma$, plaza de los resultados y la suma de los cuadrados, el resultado tiene una distribución chi-squared con $n$ grados de libertad. Esto nos permite cuantificar cuán sorprendente es que los datos se apartan de las expectativas tanto como lo hacen, porque con una distribución en mente, se puede obtener un $p$-valor.

Es el momento para volver a la CLT. Si sabía de una distribución media de $\mu$ y la varianza $\sigma^2$, una amplia muestra de la media de $\overline{X}$ es una variable aleatoria con una distribución aproximadamente Normal. En particular, $\frac{\overline{X}-\mu}{\sigma}\approx N(0,\,1)$. Pero, ¿qué le hace pensar que usted sabe que la media y la varianza? Usted puede hacer una estimación de estos parámetros a partir de una muestra existente, pero entonces algo curioso lo que pasa. Porque hemos sustituido los verdaderos valores de los parámetros con las estimaciones de los que también son variables aleatorias, resulta que la aproximación Normal ya no funciona. En particular, si $\mu$ se calcula como $m$ e $\sigma$ se calcula como $S$, $\frac{\overline{X}-m}{S}$ tiene un $t$ distribución. Como con el chi-cuadrado de distribución, la distribución de la forma depende de su número de grados de libertad.

He mencionado el ruido de los términos con distribuciones Normales. El resultado de la varianza, con un ch-cuadrado de distribución, a escala. Decir que ahora me pregunto si dos variables tienen la misma varianza. Debido a que la varianza de una muestra es una variable aleatoria, la relación de dos muestras, la varianza es $F$distribuida a escala. Esta es la base de la F-test de igualdad de varianzas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X