La forma cerrada no existe para T, pero de una manera muy intuitiva y estable enfoque es mediante el algoritmo EM. Ahora, porque el estudiante es una escala de la mezcla de las normales, usted puede escribir su modelo como
$$y_i=\mu+e_i$$
donde$e_i|\sigma,w_i \sim N(0,\sigma^2w_i^{-1})$$w_i\sim Ga(\frac{\nu}{2}, \frac{\nu}{2})$. Esto significa que condicionalmente en $w_i$ el mle son simplemente el promedio ponderado de la media y la desviación estándar. Esta es la "M"paso
$$\hat{\mu}=\frac{\sum_iw_iy_i}{ \sum_iw_i}$$
$$\hat{\sigma}^2= \frac{\sum_iw_i(y_i-\hat{\mu})^2}{n}$$
Ahora, la "E" paso reemplaza $w_i$ con sus expectativas dado todos los datos. Esta es dada como:
$$\hat{w}_i=\frac{(\nu+1) \sigma^2 }{\nu \sigma^2 +(y_i-\mu)^2}$$
así que simplemente repetir los dos pasos anteriores, la sustitución de la "mano derecha" de cada ecuación con las actuales estimaciones de los parámetros.
Esta muy fácilmente muestra la robustez de las propiedades de la distribución t como observaciones con grandes residuos recibir menos peso en el cálculo de la ubicación de $\mu$, y la limitada influencia en el cálculo de $\sigma^2$. Por "limitado influencia" me refiero a que la contribución a la estimación de $\sigma^2$ a partir de la i-ésima observación no puede superar un determinado umbral (esto es $(\nu+1)\sigma^2_{old}$ en el algoritmo EM). También se $\nu$ es una "solidez"de los parámetros en que el aumento (disminución) $\nu$ se traducirá en más (menos) uniforme de pesos y, por tanto, más (menos) sensibilidad a los valores atípicos.
Una cosa a tener en cuenta es que el registro de la probabilidad de la función puede tener más de un punto fijo, por lo que el algoritmo EM pueden converger a un modo local en lugar de un modo global. El local modos es probable que se encuentren cuando el parámetro de localización se inicia demasiado cerca de un valor atípico. Así que a partir de la mediana es una buena manera de evitar esto.