60 votos

¿Ejemplos en los que el método de los momentos puede superar a la máxima verosimilitud en muestras pequeñas?

Los estimadores de máxima verosimilitud (MLE) son asintóticamente eficientes; el resultado práctico es que a menudo son mejores que las estimaciones del método de los momentos (MoM) (cuando difieren), incluso con tamaños de muestra pequeños

Aquí "mejor que" significa en el sentido de que normalmente tiene una varianza menor cuando ambos son insesgados, y normalmente un error cuadrático medio (MSE) menor en general.

La pregunta, sin embargo, se produce:

¿Existen casos en los que el MdM puede superar al MLE - en MSE ¿en pequeñas muestras?

(cuando no se trata de una situación impar/degenerada - es decir, dado que se dan las condiciones para que el ML exista/sea asintóticamente eficiente)

Una pregunta de seguimiento sería entonces "¿cómo de grande puede ser lo pequeño?", es decir, si hay ejemplos, ¿hay algunos que todavía se mantienen con tamaños de muestra relativamente grandes, quizás incluso con todos los tamaños de muestra finitos?

[Puedo encontrar un ejemplo de un estimador sesgado que puede vencer a ML en muestras finitas, pero no es MoM].


Nota añadida a posteriori: mi atención aquí se centra principalmente en el caso univariante (que es en realidad de donde procede mi curiosidad subyacente). No quiero descartar los casos multivariantes, pero tampoco quiero adentrarme en discusiones extensas sobre la estimación de James-Stein.

37voto

Jeff Bauer Puntos 236

Esto puede considerarse... tramposo, pero el estimador OLS es un estimador MoM. Consideremos una especificación de regresión lineal estándar (con $K$ regresores estocásticos, por lo que las magnitudes son condicionales a la matriz de regresores), y una muestra de tamaño $n$ . Denote $s^2$ el estimador OLS de la varianza $\sigma^2$ del término de error. Es insesgada por lo que

$$ MSE(s^2) = \operatorname {Var}(s^2) = \frac {2\sigma^4}{n-K} $$

Consideremos ahora la MLE de $\sigma^2$ . Es

$$\hat \sigma^2_{ML} = \frac {n-K}{n}s^2$$ Es tendencioso. Su MSE es

$$MSE (\hat \sigma^2_{ML}) = \operatorname {Var}(\hat \sigma^2_{ML}) + \Big[E(\hat \sigma^2_{ML})-\sigma^2\Big]^2$$ Expresando el MLE en términos del OLS y utilizando la expresión de la varianza del estimador OLS obtenemos

$$MSE (\hat \sigma^2_{ML}) = \left(\frac {n-K}{n}\right)^2\frac {2\sigma^4}{n-K} + \left(\frac {K}{n}\right)^2\sigma^4$$ $$\Rightarrow MSE (\hat \sigma^2_{ML}) = \frac {2(n-K)+K^2}{n^2}\sigma^4$$

Queremos las condiciones (si existen) en las que

$$MSE (\hat \sigma^2_{ML}) > MSE (s^2) \Rightarrow \frac {2(n-K)+K^2}{n^2} > \frac {2}{n-K}$$

$$\Rightarrow 2(n-K)^2+K^2(n-K)> 2n^2$$ $$ 2n^2 -4nK + 2K^2 +nK^2 - K^3 > 2n^2 $$ Simplificando obtenemos $$ -4n + 2K +nK - K^2 > 0 \Rightarrow K^2 - (n+2)K + 4n < 0 $$ ¿Es factible que esta cuadrática en $K$ para obtener valores negativos? Necesitamos que su discriminante sea positivo. Tenemos $$\Delta_K = (n+2)^2 -16n = n^2 + 4n + 4 - 16n = n^2 -12n + 4$$ que es otro cuadrático, en $n$ esta vez. Este discriminante es $$\Delta_n = 12^2 - 4^2 = 8\cdot 16$$ así que $$n_1,n_2 = \frac {12\pm \sqrt{8\cdot 16}}{2} = 6 \pm 4\sqrt2 \Rightarrow n_1,n_2 = \{1, 12\}$$ para tener en cuenta el hecho de que $n$ es un número entero. Si $n$ está dentro de este intervalo tenemos que $\Delta_K <0$ y la cuadrática en $K$ toma siempre valores positivos, por lo que no podemos obtener la desigualdad requerida. Por lo tanto: necesitamos un tamaño de muestra superior a 12.

Teniendo en cuenta esto, las raíces de $K$ -cuadráticas son

$$K_1, K_2 = \frac {(n+2)\pm \sqrt{n^2 -12n + 4}}{2} = \frac n2 +1 \pm \sqrt{\left(\frac n2\right)^2 +1 -3n}$$

En general: para el tamaño de la muestra $n>12$ y el número de regresores $K$ tal que $\lceil K_1\rceil <K<\lfloor K_2\rfloor $ tenemos $$MSE (\hat \sigma^2_{ML}) > MSE (s^2)$$ Por ejemplo, si $n=50$ entonces se encuentra que el número de regresores debe ser $5<K<47$ para que se cumpla la desigualdad. Es interesante que para números pequeños de regresores el MLE es mejor en el sentido del MSE.

ADDENDUM
La ecuación de las raíces del $K$ -cuadrática se puede escribir

$$K_1, K_2 = \left(\frac n2 +1\right) \pm \sqrt{\left(\frac n2 +1\right)^2 -4n}$$ que por una mirada rápida yo piense en implica que la raíz inferior será siempre $5$ (teniendo en cuenta la restricción del "valor entero") -por lo que la MLE será eficiente en cuanto al MSE cuando los regresores sean hasta $5$ para cualquier tamaño de muestra (finito).

17voto

Guy Puntos 2102

"En este artículo, consideramos una nueva parametrización de la distribución gaussiana inversa de dos parámetros de dos parámetros de la distribución gaussiana inversa. Encontramos los estimadores de los parámetros de la distribución gaussiana inversa por el método de los momentos y el método de máxima verosimilitud. A continuación, comparamos comparamos la eficacia de los estimadores de los dos métodos en función de su sesgo y error cuadrático medio (ECM). Para ello, fijamos los valores de los parámetros, realizamos simulaciones y informamos del MSE y el sesgo de las estimaciones obtenidas por ambos métodos. La conclusión es que cuando tamaño de las muestras es de 10, el método de los momentos tiende a ser más eficiente que el método de máxima para las estimaciones de ambos parámetros (lambda y theta) ...." Leer más

Hoy en día no se puede (o no se debe) confiar en todo lo que se publica, pero la última página del periódico parece prometedora. Espero que esto responda a su nota añadida a posteriori.

15voto

AdamSane Puntos 1825

Encontré uno:

Para la distribución de potencia exponencial asimétrica

$$f(x) = \frac{\alpha}{\sigma\Gamma(\frac{1}{\alpha})} \frac{\kappa}{1+\kappa^2}\exp\left(-\frac{\kappa^\alpha}{\sigma^\alpha}[(x-\theta)^+]^\alpha -\frac{1}{\kappa^\alpha \sigma^\alpha}[(x-\theta)^-]^\alpha\right)\,,\quad \alpha,\sigma,\kappa>0, \text{ and } x,\theta\in \mathbb R$$

los resultados de la simulación de Delicado y Goria (2008) sugieren que, para algunos de los parámetros en los tamaños de muestra más pequeños, el método de los momentos puede superar al MLE; por ejemplo, en el caso conocido- $\theta$ caso en el tamaño de la muestra 10, al estimar $\sigma$ el MSE de MoM es menor que el de ML.

Delicado y Goria (2008),
Una comparación de muestras pequeñas de los métodos de máxima verosimilitud, momentos y L-momentos para el distribución de potencia exponencial asimétrica,
Revista Computational Statistics & Data Analysis
Volumen 52 Número 3, enero, pp 1661-1673

(ver también http://www-eio.upc.es/~delicado/my-public-files/LmomAEP.pdf )

15voto

Según las simulaciones realizadas por Hosking y Wallis (1987) en "Parameter and Quantile Estimation for the Generalized Pareto Distribution", los parámetros de la distribución de Pareto generalizada de dos parámetros dados por la cdf

$G(y)= \begin{cases} 1-\left(1+ \frac{\xi y}{\beta} \right)^{-\frac{1}{\xi}} & \xi \neq 0 \\ 1-\exp\left(-\frac{y}{\beta}\right) & \xi=0 \end{cases}$

o la densidad

$g(y)= \begin{cases} \frac{1}{\beta} \left( 1+\frac{\xi y}{\beta} \right)^{-1-\frac{1}{\xi}} & \xi \neq 0 \\ \frac{1}{\beta} \exp\left(-\frac{y}{\beta} \right) & \xi=0 \end{cases}$

son más fiables si se estiman mediante MOM en lugar de ML. Esto es válido para las muestras de hasta 500. Las estimaciones MOM vienen dadas por

$\widehat\beta = \frac{\overline y \overline{y^2}}{2(\overline{y^2} - (\overline y)^2)}$

y

$\widehat\xi = \frac{1}{2} - \frac{(\overline y)^2}{2(\overline{y^2} - (\overline y)^2)}$

con

$\overline{y^2} = \frac{1}{n} \sum_{i=1}^n y_i^2$

El documento contiene bastantes erratas (al menos mi versión). Los resultados de los estimadores del MOM que aparecen arriba fueron amablemente proporcionados por "heropup" en este hilo .

14voto

El método de los momentos (MM) puede superar al enfoque de máxima verosimilitud (ML) cuando es posible especificar sólo algunos momentos de la población. Si la distribución está mal definida, los estimadores ML no serán consistentes.

Suponiendo momentos finitos y observaciones i.i.d., el MM puede proporcionar buenos estimadores con buenas propiedades asintóticas.

Ejemplo: Dejemos que $X_1, \ldots, X_n$ sea una muestra i.i.d. de $X \sim f$ , donde $f: \mathbb{R} \to \mathbb{R}_+$ es una función de densidad de probabilidad desconocida. Definir $\nu_k = \int_{\mathbb{R}} x^k f(x)dx$ el $k$ momento y considerar que el interés es estimar el cuarto momento $\nu_4$ .

Dejemos que $\bar{X_k} = \frac{1}{n}\sum_{i=1}^n X_i^k$ Entonces, suponiendo que $\nu_8 < \infty$ el teorema del límite central garantiza que $$ \sqrt{n}(\bar{X_4} - \nu_4) \stackrel{d}{\to} N(0, \nu_8 - \nu_4^2), $$ donde " $\stackrel{d}{\to}$ " significa "converge en la distribución a". Además, por el teorema de Slutsky,

$$ \frac{\sqrt{n}(\bar{X_4} - \nu_4)}{\sqrt{\bar{X_8} - \bar{X_4}^2}} \stackrel{d}{\to} N(0, 1) $$ desde $\bar{X_8} - \bar{X_4}^2 \stackrel{P}{\to} \nu_8 - \nu_4^2$ (convergencia en probabilidad).

Es decir, podemos hacer inferencias (aproximadas) para $\nu_4$ utilizando el enfoque de momentos (para muestras grandes), sólo tenemos que hacer algunas suposiciones sobre los momentos poblacionales de interés. En este caso, los estimadores de máxima verosimilitud no pueden definirse sin conocer la forma de $f$ .

Un estudio de simulación:

Patriota y otros. (2009) realizaron algunos estudios de simulación para verificar las tasas de rechazo de las pruebas de hipótesis en un modelo de errores en las variables. Los resultados sugieren que el enfoque MM produce tasas de error bajo la hipótesis nula más cercanas al nivel nominal que el ML para muestras pequeñas.

Nota histórica:

El método de los momentos fue propuesto por K. Pearson en 1894 "Contributions to the Mathematical Theory of Evolution". El método de máxima probabilidad fue propuesto por R.A. Fisher en 1922 "On the Mathematical Foundations of Theoretical Statistics". Ambos trabajos se publicaron en la revista Philosophical Transactions of the Royal Society of London, Series A.

Referencia:

Fisher, RA (1922). On the Mathematical Foundations of Theoretical Statistics, Philosophical Transactions of the Royal Society of London, Series A, 222, 309-368.

Patriota, AG, Bolfarine, H, de Castro, M (2009). A heteroscedastic structural errors-in-variables model with equation error, Statistical Methodology 6 (4), 408-423 ( pdf )

Pearson, K (1894). Contributions to the Mathematical Theory of Evolution, Philosophical Transactions of the Royal Society of London, Series A, 185, 71-110.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X