13 votos

¿Se utiliza el error medio cuadrático para evaluar la superioridad relativa de un estimador sobre otro?

Supongamos que tenemos dos estimadores $\alpha_1$ y $\alpha_2$ para algún parámetro $x$ . Para determinar qué estimador es "mejor", ¿nos fijamos en el MSE (error medio cuadrático)? En otras palabras, nos fijamos en $$MSE = \beta^2+ \sigma^2$$ donde $\beta$ es el sesgo del estimador y $\sigma^2$ es la varianza del estimador? ¿El que tiene un mayor MSE es un peor estimador?

11voto

Niall Puntos 51

Si tiene dos estimadores que compiten entre sí $\hat \theta_1$ y $\hat \theta_2$ , ya sea o no $$ {\rm MSE}(\hat \theta_1) < {\rm MSE}(\hat \theta_2) $$ le dice que $\hat \theta_1$ es el mejor estimador depende totalmente de su definición de "mejor". Por ejemplo, si se comparan estimadores insesgados y por "mejor" se entiende que tiene una varianza menor, entonces, sí, esto implicaría que $\hat \theta_1$ es mejor. $\rm MSE$ es un criterio popular debido a su conexión con los mínimos cuadrados y la log-verosimilitud gaussiana pero, como muchos criterios estadísticos, hay que tener cuidado de no utilizar $\rm MSE$ a ciegas como medida de la calidad del estimador sin prestar atención a la aplicación.

Hay ciertas situaciones en las que la elección de un estimador para minimizar ${\rm MSE}$ puede no ser algo especialmente sensato. Se me ocurren dos situaciones:

  • Si hay valores atípicos muy grandes en un conjunto de datos, pueden afectar al MSE de forma drástica y, por lo tanto, el estimador que minimiza el MSE puede estar excesivamente influenciado por dichos valores atípicos. En tales situaciones, el hecho de que un estimador minimice el MSE no dice mucho, ya que, si se eliminan los valores atípicos, se puede obtener una estimación muy diferente. En ese sentido, el MSE no es "robusto" a los valores atípicos. En el contexto de la regresión, este hecho es lo que motivó el estimador M de Huber (que discuto en esta respuesta), que minimiza una función de criterio diferente (que es una mezcla entre el error cuadrado y el error absoluto) cuando hay errores de cola larga.

  • Si está estimando un parámetro acotado, comparando $\rm MSE$ s puede no ser adecuado, ya que en ese caso penaliza de forma diferente la sobreestimación y la infraestimación. Por ejemplo, supongamos que estamos estimando una varianza, $\sigma^2$ . Entonces, si subestima conscientemente la cantidad que su $\rm MSE$ puede ser como máximo $\sigma^4$ mientras que la sobreestimación puede producir un $\rm MSE$ que supera con creces $\sigma^4$ , tal vez incluso por una cantidad ilimitada.

Para que estos inconvenientes queden más claros, pondré un ejemplo concreto de cuando, debido a estas cuestiones, el $\rm MSE$ puede no ser una medida adecuada de la calidad del estimador.

Suponga que tiene una muestra $X_1, ..., X_n$ de un $t$ distribución con $\nu>2$ grados de libertad y estamos tratando de estimar la varianza, que es $\nu/(\nu-2)$ . Consideremos dos estimadores que compiten entre sí: $$\hat \theta_{1}: {\rm the \ unbiased \ sample \ variance} $$ y $$\hat \theta_{2} = 0,{\rm \ regardless \ of \ the \ data}$$ Claramente $\rm MSE(\hat \theta_{2}) = \frac{\nu^2}{(\nu-2)^2}$ y es un hecho que $$ {\rm MSE}(\hat \theta_{1}) = \begin{cases} \infty &\mbox{if } \nu \leq 4 \\ \frac{\nu^2}{(\nu-2)^2} \left( \frac{2}{n-1}+\frac{6}{n(\nu-4)} \right) & \mbox{if } \nu>4 . \end{cases} $$ que puede derivarse utilizando el hecho discutido en este hilo y las propiedades del $t$ -distribución . Así, el estimador ingenuo supera en términos de $\rm MSE$ independientemente del tamaño de la muestra siempre que $\nu < 4$ Lo cual es bastante desconcertante. También se supera cuando $\left( \frac{2}{n-1}+\frac{6}{n(\nu-4)} \right) > 1$ pero esto sólo es relevante para tamaños de muestra muy pequeños. Lo anterior ocurre debido a la naturaleza de cola larga del $t$ distribución con pequeños grados de libertad, lo que hace que $\hat \theta_{2}$ propensos a valores muy grandes y el $\rm MSE$ penaliza fuertemente la sobreestimación, mientras que $\hat \theta_1$ no tiene este problema.

La conclusión es que $\rm MSE$ no es una medida adecuada del rendimiento del estimador en este escenario . Esto está claro porque el estimador que domina en términos de $\rm MSE$ es ridícula (sobre todo porque no hay ninguna posibilidad de que sea correcta si hay alguna variabilidad en los datos observados). Tal vez un enfoque más adecuado (como señalan Casella y Berger) sería elegir el estimador de la varianza, $\hat \theta$ que minimiza la pérdida de Stein:

$$ S(\hat \theta) = \frac{ \hat \theta}{\nu/(\nu-2)} - 1 - \log \left( \frac{ \hat \theta}{\nu/(\nu-2)} \right) $$

que penaliza la subestimación de igual manera que la sobreestimación. También nos devuelve la cordura ya que $S(\hat \theta_1)=\infty$ :)

2voto

Shawn Puntos 8120

El MSE corresponde al riesgo (pérdida esperada) de la función de pérdida del error al cuadrado $L(\alpha_i) = (\alpha_i - \alpha)^2$ . La función de pérdida del error al cuadrado es muy popular, pero sólo es una opción entre muchas otras. El procedimiento que describes es correcto bajo la pérdida de error al cuadrado; la cuestión es si eso es apropiado en tu problema o no.

2voto

Max Puntos 111

Porque la función $f(x) = x^2$ es diferenciable, hace que encontrar el MSE mínimo sea más fácil tanto desde el punto de vista teórico como numérico. Por ejemplo, en los mínimos cuadrados ordinarios se puede resolver explícitamente la pendiente y el intercepto ajustados. Desde el punto de vista numérico, los solucionadores son más eficientes cuando se tiene también una derivada.

En mi opinión, el error cuadrático medio suele sobreponderar los valores atípicos. Por eso suele ser más robusto utilizar el error medio absoluto, es decir, utilizar $f(x) = |x|$ como su función de error. Sin embargo, al ser no diferenciable hace que las soluciones sean más difíciles de trabajar.

El MSE es probablemente una buena opción si los términos de error se distribuyen normalmente. Si tienen colas más gruesas, es preferible una opción más sólida, como el valor absoluto.

0voto

knweiss Puntos 2810

En Case & Berger Statistical Inference 2nd edition Page 332 se afirma que El MSE penaliza por igual la sobreestimación y la subestimación, lo que está bien en el caso de la localización. En el caso de la escala, sin embargo, 0 es un límite inferior natural, por lo que el problema de estimación no es simétrico. El uso de MSE en este caso tiende a ser indulgente con la subestimación.

Es posible que desee comprobar qué estimador satisface las propiedades de UMVUE, lo que significa utilizar el límite inferior de Cramer-Rao. Página 341.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X