Estoy mirando algunos problemas y en algunos, para poner a prueba los coeficientes, a veces veo personas que usan la distribución de Student, y a veces veo distribución Normal. ¿Cuál es la regla?
Respuestas
¿Demasiados anuncios?La distribución normal es la ampliación de la distribución de la muestra en muchos de los significativos problemas estadísticos que involucran alguna versión del Teorema Central del Límite: usted tiene (aproximadamente) piezas independientes de información que se suman para llegar a la respuesta. Si las estimaciones de los parámetros son asintóticamente normal, sus funciones también será asintóticamente normal (en los casos normales).
Por otro lado, el Estudiante $t$ distribución se deriva bajo condiciones más restrictivas de yo.yo.d. normal errores de regresión. Si usted puede comprar este supuesto, usted puede comprar el $t$-distribución se utiliza para las pruebas de hipótesis en la regresión lineal. El uso de esta distribución proporciona más ancho de los intervalos de confianza que el uso de la distribución normal. El significado sustantivo de que es lo que en muestras pequeñas, usted necesita para calcular la medida de la incertidumbre, la regresión error cuadrático medio, o la desviación estándar de los residuos, $\sigma$. (En muestras grandes, que poco tienen tanta información como si usted lo sabía, por lo que el $t$-distribución degenera a la distribución normal.)
Hay algunas ocasiones en la regresión lineal, incluso con muestras finitas, donde el Estudiante de distribución no puede ser justificada. Están relacionadas con violaciones de las condiciones de segundo orden sobre los errores de regresión; es decir, que ellos son (1) varianza constante, y (2) independiente. Si estos supuestos son violados, y a corregir sus errores estándar utilizando Eicker/Blanco estimador para heteroskedastic, pero independientes de los residuos; o Newey-West estimador para la serie de errores correlacionados, o agrupado los errores estándar para el grupo de la correlación de datos, no hay manera que usted puede tirar de una justificación razonable para el Estudiante de distribución. Sin embargo, mediante el empleo de una versión adecuada de normalidad asintótica argumento (traingular matrices y tal), se puede justificar la aproximación normal (aunque debe tener en cuenta que el intervalo de confianza sería muy probable que sea demasiado estrecho).
Me gusta la representación de la t de student la distribución como una mezcla de una distribución normal y una distribución gamma:
$$Student(x|\mu,\sigma^2,\nu)=\int_{0}^{\infty}Normal\left(x|\mu,\frac{\sigma^2}{\rho}\right)Gamma\left(\rho|\frac{\nu}{2},\frac{\nu}{2}\right)d\rho$$
Tenga en cuenta que la media de la distribución gamma es $E[\rho|\nu]=1$ y la varianza de esta distribución es $V[\rho|\nu]=\frac{2}{\nu}$. Así, podemos ver la distribución t como la generalización de la suposición de varianza constante para un "similares" de la varianza de la asunción. $\nu$ que básicamente controla lo similares que somos permitir las desviaciones. También ver esto como "aleatoria ponderada" regresión, para que podamos utilizar la integral anterior como una "variable oculta" la representación de la siguiente manera:
$$y_i=\mu_i+\frac{e_i}{\sqrt{\rho_i}}$$
Donde $e_i\sim N(0,\sigma^2)$ $\rho_i\sim Gamma\left(\frac{\nu}{2},\frac{\nu}{2}\right)$ todas las variables independientes. De hecho, esta es básicamente la definición de la distribución t, $Gamma\left(\frac{\nu}{2},\frac{\nu}{2}\right)\sim \frac{1}{\nu}\chi^2_\nu$
Usted puede ver por qué este resultado hace que la distribución t de student "robusto" en comparación con la normal, debido a un gran error $y_i-\mu_i$ puede ocurrir debido a un gran valor de $\sigma^2$ o debido a un pequeño valor de $\rho_i$. Ahora becuase $\sigma^2$ es común a todas las observaciones, sino $\rho_i$ es específico para la i-ésima uno, el general de "sentido común", cosa que llegar a la conclusión es que los valores atípicos dar evidencia pequeño $\rho_i$. Además, si se va a realizar la regresión lineal $\mu_i=x_i^T\beta$, usted encontrará que $\rho_i$ es el peso de la i-ésima observación, suponiendo que $\rho_i$ es conocido.:
$$\hat{\beta}=(\sum_i\rho_ix_ix_i^T)^{-1}(\sum_i\rho_ix_iy_i)$$
Así, un valor atípico que constituye evidencia para las pequeñas $\rho_i$, lo que significa la i-ésima observación tiene menos peso. Además, un pequeño "atípico" - una observación que se predijo/equipada mucho mejor que el resto - que constituye la evidencia de un gran $\rho_i$. Por lo tanto, esta observación se dará más peso en la regresión. Esto está en línea con lo que uno intuitivamente hacer con un valor atípico o un buen punto de datos.
Tenga en cuenta que no hay una "regla" para decidir estas cosas, aunque la mía y la de otros respuesta a esta pregunta puede ser útil para encontrar algunas de las pruebas que usted puede hacer a lo largo de la varianza finita ruta (t de student es infinita variación de grados de libertad igual o inferior a dos).