7 votos

¿Por qué la función de probabilidad logarítmica de un modelo utiliza SSE/n y no SSE/df?

Estoy tratando de averiguar cómo funciona la función de log-verosimilitud para la regresión lineal. He encontrado la fórmula aquí y aquí . Haciendo algunos experimentos con él (ver código más abajo), me sorprendió bastante que la probabilidad utiliza SSE/n en lugar de MSE ( SSE/df ). MSE ¡se utilizó en todas partes hasta ahora! Yo pensaba que el MSE es un estimador mucho mejor de $\sigma^2$ mencionado en la fórmula en el 1er recurso (página 6) - la varianza residual real. Pero la 2º recurso y mi experimento dice claramente que $\sigma^2$ se define como SSE/n (donde n es la longitud del vector de la variable de resultado).

Aquí está el código para jugar:

set.seed(128)
y = c(rnorm(200, 20, 4), rnorm(300, 30, 4), rnorm(400, 40, 4), rnorm(500, 50, 4))
cat1 = as.factor(c(rep(1, 200), rep(2, 300), rep(3, 400), rep(4, 500)))
rand_order = sample(1:length(cat1))
cat2 = cat1[rand_order]
cat2y = c(rep(1, 200), rep(-2, 300), rep(3, 400), rep(-4, 500))
y = y + cat2y[rand_order]
m1 = lm(y ~ 0 + cat1 + cat2)

# logLik using residual degrees of freedom (-3941.94):
-length(m1$model$y)/2*log(2*pi) - length(m1$model$y)/2*log(sum((m1$residual)^2)/m1$df.residual) - 1/2*m1$df.residual

# logLik using N (-3941.931)
-length(m1$model$y)/2*log(2*pi) - length(m1$model$y)/2*log(sum((m1$residual)^2)/length(m1$model$y)) - 1/2*length(m1$model$y)

# real logLik (-3941.931)
logLik(m1)

5voto

Awais Tariq Puntos 116

La misma situación se da en el modelo más simple de medios normales: $Y=\mu + \epsilon$ con $\epsilon$ ~ N(0, $\sigma^2$ ).

La MLE de $\sigma^2$ es la suma de cuadrados sobre la media dividida por n: $$S^2=\sum \frac{(Y_i-\bar{Y})^2}{n}$$ .

Sin embargo, esta cantidad es un estimador sesgado: $E(S^2) \neq \sigma^2$ . Dividiendo la suma de cuadrados por $n-1$ en lugar de $n$ da un estimador insesgado de la varianza.

Además, $\sum \frac{(Y_i-\bar{Y})^2}{\sigma^2(n-1)}$ tiene un $\chi^2$ distribución con $n-1$ grados de libertad. Y los cocientes de cuadrados medios independientes tendrán la distribución F.

La inferencia estadística ofrece varios criterios para la "máxima verosimilitud" de los estimadores: entre ellos, la insesgadez, la varianza mínima, el minimizador de una función de pérdida y (cada vez más) la precisión predictiva. También se considera deseable el estimador de máxima verosimilitud, porque la verosimilitud (supuestamente) contiene toda la información relevante sobre el modelo (esto es discutible y se ha debatido). El MLE suele conseguir ser asintóticamente insesgado y eficiente. Lo que esto significa para una muestra finita depende del modelo.

La regresión lineal con errores normales funciona de forma muy parecida al modelo de media normal simple que di aquí: el estimador insesgado de la varianza no es el MLE.

Se prefiere el estimador insesgado por sus buenas propiedades de distribución. Geométricamente, se está partiendo $R^n$ en dos subespacios lineales: uno para contener el modelo y otro para contener los residuos. La dimensión del espacio de los residuos son los grados de libertad.

4voto

StasK Puntos 19497

Para ampliar una muy buena respuesta que dio Placidia:

  1. La insesgadez no es necesariamente la mejor propiedad posible para un estimador. Los estimadores de contracción aplicados en situaciones de colinealidad múltiple o con muchos regresores posibles (lasso) son intencionadamente sesgados, y esto se hace para mejorar sus otras propiedades (interpretación más fácil de los resultados). Cualquier estimador bayesiano de la media posterior o de la moda posterior con un previo informativo está sesgado; esto no significa que queramos descartar toda esta área de la estadística.
  2. En cuanto a otros criterios de rendimiento de un estimador estadístico, el error cuadrático medio (ECM) es un criterio popular: en qué medida el estimador se desvía, por término medio, sin tener en cuenta si está sesgado o no. El mejor estimador de la población $\sigma^2$ es entonces la que no tiene $n-1$ no $n$ pero $n+1$ en el denominador. Por lo tanto, si su objetivo inferencial es la varianza de la población, es posible que desee utilizar el estimador que divide la suma de los errores al cuadrado por $n+1$ .
  3. La observación de que la MLE $S^2$ no parece tener mucho sentido en el contexto de la regresión se ha hecho antes, por supuesto, y se han propuesto correcciones para forzarla a utilizar los grados de libertad "correctos". Esta es la idea de máxima verosimilitud restringida (REML), donde los estimadores se definen condicionando el subespacio residual que tiene la dimensión "correcta".
  4. Otra propiedad útil del ML es la invariabilidad de la transformación. Si $S^2$ es la MLE de $\sigma^2$ , entonces automáticamente $S$ es la MLE de $\sigma$ y $\ln S$ es el estimador de $\ln(\sigma)$ . Esto es muy útil en el código de software: maximizar con respecto a $S$ o $S^2$ se complica porque la cantidad es no negativa, mientras que la maximización con respecto a $\ln S$ no implica ninguna restricción. (Se observa que por la desigualdad de Jensen, la insesgadez de un estimador $$s^2 = \frac1{n-1} \sum (Y_i - \bar Y)^2$$ es fácilmente destruido por cualquier transformación: $s$ no es una estimación insesgada de $\sigma$ . De hecho, el estimador insesgado de $\sigma$ es bastante difícil de construir, y no me avergonzaré demasiado de admitir que no me sé una de memoria).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X