21 votos

¿Hay algún ejemplo en el que MLE produzca una estimación sesgada de la media?

¿Puede dar un ejemplo de un estimador MLE de la media que esté sesgado?

No estoy buscando un ejemplo que rompa los estimadores MLE en general violando las condiciones de regularidad.

Todos los ejemplos que veo en Internet se refieren a la varianza, y no encuentro nada relacionado con la media.

EDITAR

@MichaelHardy proporcionó un ejemplo donde obtenemos una estimación sesgada de la media de la distribución uniforme usando MLE bajo un cierto modelo propuesto.

Sin embargo

https://en.wikipedia.org/wiki/Uniform_distribution_(continuous)#Estimación_del_punto_medio

sugiere que MLE es un estimador insesgado mínimo uniforme de la media, claramente bajo otro modelo propuesto.

En este punto todavía no está muy claro para mí lo que se entiende por estimación MLE si es muy hipotéticamente dependiente del modelo a diferencia de, por ejemplo, un estimador de la media muestral que es neutral al modelo. Al final estoy interesado en estimar algo sobre la población y realmente no me importa la estimación de un parámetro de un modelo hipotetizado.

EDITAR 2

Como mostró @ChristophHanck el modelo con información adicional introdujo sesgo pero no consiguió reducir el MSE.

También tenemos resultados adicionales:

http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_parte1.pdf (p61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf (diapositiva 2) http://www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf (diapositiva 5)

"Si existe un estimador insesgado más eficiente ˆ de (es decir, ˆ es insesgado y su varianza es igual a la CRLB) entonces el método de máxima método de estimación de máxima verosimilitud lo producirá".

"Además, si existe un estimador eficiente, es el estimador ML".

Dado que el MLE con parámetros libres del modelo es insesgado y eficiente, por definición, ¿es éste "el" Estimador de Máxima Verosimilitud?

EDITAR 3

@AlecosPapadopoulos tiene un ejemplo con distribución Half Normal en el foro de matemáticas.

https://math.stackexchange.com/questions/799954/can-the-maximum-likelihood-estimator-be-unbiased-and-fail-to-achieve-cramer-rao

No ancla ninguno de sus parámetros como en el caso uniforme. Yo diría que eso lo resuelve, aunque no ha demostrado el sesgo del estimador de la media.

40voto

Trevor Boyd Smith Puntos 133

Christoph Hanck no ha publicado los detalles de su ejemplo propuesto. Supongo que se refiere a la distribución uniforme en el intervalo $[0,\theta],$ basado en una muestra i.i.d. $X_1,\ldots,X_n$ de tamaño superior a $n=1.$

La media es $\theta/2$ .

La MLE de la media es $\max\{X_1,\ldots,X_n\}/2.$

Esto es tendencioso ya que $\Pr(\max < \theta) = 1,$ así que $\operatorname{E}({\max}/2)<\theta/2.$

PS: Quizás deberíamos observar que el mejor estimador insesgado de la media $\theta/2$ es no la media muestral, sino que es $$\frac{n+1} {2n} \cdot \max\{X_1,\ldots,X_n\}.$$ La media muestral es un pésimo estimador de $\theta/2$ porque para algunas muestras, la media muestral es inferior a $\dfrac 1 2 \max\{X_1,\ldots,X_n\},$ y es claramente imposible que $\theta/2$ sea inferior a ${\max}/2.$
fin de PS


Sospecho que la distribución de Pareto es otro de esos casos. Aquí está la medida de probabilidad: $$ \alpha\left( \frac \kappa x \right)^\alpha\ \frac{dx} x \text{ for } x >\kappa. $$ El valor esperado es $\dfrac \alpha {\alpha -1 } \kappa.$ La MLE del valor esperado es $$ \frac n {n - \sum_{i=1}^n \big((\log X_i) - \log(\min)\big)} \cdot \min $$ donde $\min = \min\{X_1,\ldots,X_n\}.$

No he calculado el valor esperado de la MLE para la media, así que no sé cuál es su sesgo.

19voto

Cliff AB Puntos 3213

He aquí un ejemplo que creo que puede sorprender a algunos:

En la regresión logística, para cualquier tamaño de muestra finito con resultados no deterministas (es decir. $0 < p_{i} < 1$ ), cualquier coeficiente de regresión estimado no sólo está sesgado, sino que la media del coeficiente de regresión es en realidad indefinida.

Esto se debe a que para cualquier tamaño de muestra finito, existe una probabilidad positiva (aunque muy pequeña si el número de muestras es grande en comparación con el número de parámetros de regresión) de obtener una separación perfecta de los resultados. Cuando esto ocurre, los coeficientes de regresión estimados serán $-\infty$ o $\infty$ . Tener probabilidad positiva de ser $-\infty$ o $\infty$ implica que el valor esperado es indefinido.

Para más información sobre este tema, consulte el Efecto Hauck-Donner .

10voto

Christoph Hanck Puntos 4143

Aunque @MichaelHardy ya lo ha señalado, he aquí un argumento más detallado de por qué el MLE del máximo (y por tanto, el de la media $\theta/2$ por invariancia) no es insesgada, aunque lo sea en un modelo diferente (véase la edición a continuación).

Estimamos el límite superior de la distribución uniforme $U[0,\theta]$ . Toma, $y_{(n)}$ es la MLE, para una muestra aleatoria $y$ . Demostramos que $y_{(n)}$ no es imparcial. Su cdf es \begin{eqnarray*} F_{y_{(n)}}(x)&=&\Pr\{Y_1\leqslant x,\ldots,Y_n\leqslant x\}\\ &=&\Pr\{Y_1\leqslant x\}^n\\ &=&\begin{cases} 0&\qquad\text{for}\quad x<0\\ \left(\frac{x}{\theta}\right)^n&\qquad\text{for}\quad 0\leqslant x\leqslant\theta\\ 1&\qquad\text{for}\quad x>\theta \end{cases} \end{eqnarray*} Por lo tanto, su densidad es $$f_{y_{(n)}}(x)= \begin{cases} \frac{n}{\theta}\left(\frac{x}{\theta}\right)^{n-1}&\qquad\text{for}\quad 0\leqslant x\leqslant\theta\\ 0&\qquad\text{else} \end{cases} $$ Por lo tanto, \begin{eqnarray*} E[Y_{(n)}]&=&\int_0^\theta x\frac{n}{\theta}\left(\frac{x}{\theta}\right)^{n-1}dx\\ &=&\int_0^\theta n\left(\frac{x}{\theta}\right)^{n}dx\\ &=&\frac{n}{n+1}\theta \end{eqnarray*}

EDITAR: Es cierto que (véase la discusión en los comentarios) el MLE es insesgado para la media en el caso en que tanto el límite inferior $a$ y límite superior $b$ son desconocidos. Entonces, el mínimo $Y_{(1)}$ es la MLE para $a$ con (detalles omitidos) valor esperado $$ E(Y_{(1)})=\frac{na+b}{n+1} $$ mientras que $$ E(Y_{(n)})=\frac{nb+a}{n+1} $$ de modo que la MLE para $(a+b)/2$ es $$ \frac{Y_{(1)}+Y_{(n)}}{2} $$ con valor esperado $$ E\left(\frac{Y_{(1)}+Y_{(n)}}{2}\right)=\frac{na+b+nb+a}{2(n+1)}=\frac{a+b}{2} $$

EDITAR 2: Para profundizar en el punto de Henry, aquí hay una pequeña simulación para el MSE de los estimadores de la media, mostrando que mientras que el MLE si no sabemos que el límite inferior es cero es insesgado, los MSEs para las dos variantes son idénticos, lo que sugiere que el estimador que incorpora el conocimiento del límite inferior reduce la variabilidad.

theta <- 1
mean <- theta/2
reps <- 500000
n <- 5
mse <- bias <- matrix(NA, nrow = reps, ncol = 2)

for (i in 1:reps){
  x <- runif(n, min = 0, max = theta)
  mle.knownlowerbound <- max(x)/2
  mle.unknownlowerbound <- (max(x)+min(x))/2
  mse[i,1] <- (mle.knownlowerbound-mean)^2
  mse[i,2] <- (mle.unknownlowerbound-mean)^2
  bias[i,1] <- mle.knownlowerbound-mean
  bias[i,2] <- mle.unknownlowerbound-mean

}

> colMeans(mse)
[1] 0.01194837 0.01194413

> colMeans(bias)
[1] -0.083464968 -0.000121968

5voto

Jeff Bauer Puntos 236

Completando aquí la omisión en mi respuesta en math.se a la que hace referencia la OP,

supongamos que tenemos una muestra i.i.d. de tamaño $n$ de variables aleatorias siguiendo la Medio normal distribución. La densidad y los momentos de esta distribución son

$$f_H(x) = \sqrt{2/\pi}\cdot \frac 1{v^{1/2}}\cdot \exp\big\{-\frac {x^2}{2v} \big\} \\ E(X) = \sqrt{2/\pi}\cdot v^{1/2}\equiv \mu,\;\; \operatorname{Var}(X) = \left(1-\frac 2 \pi \right)v$$

La log-verosimilitud de la muestra es

$$L(v\mid \mathbf x) = n\ln\sqrt{2/\pi}-\frac n2\ln v -\frac 1 {2v} \sum_{i=1}^n x_i^2$$

La primera derivada con respecto a $v$ es

$$\frac {\partial}{\partial v}L(v\mid\mathbf x) = -\frac n{2v} + \frac 1 {2v^2} \sum_{i=1}^n x_i^2,\implies \hat v_\text{MLE} = \frac 1n \sum_{i=1}^nx_i^2$$

por lo que es un método de estimación de momentos. Es insesgado ya que,

$$E(\hat v_\text{MLE}) = E(X^2) = \operatorname{Var}(X) + [E(X)])^2 = \left(1-\frac 2 \pi \right)v + \frac 2 \pi v = v$$

Pero el estimador resultante para el media está sesgada a la baja debido a la desigualdad de Jensen

\begin{align} \hat \mu_\text{MLE} = \sqrt{2/\pi}\cdot \sqrt {\hat v_\text{MLE}} \implies & E\left(\hat \mu_\text{MLE}\right) = \sqrt{2/\pi}\cdot E\left(\sqrt {\hat v_\text{MLE}}\,\right) \\[6pt] & < \sqrt{2/\pi}\cdot \left[\sqrt {E(\hat v_\text{MLE})}\,\right] = \sqrt{2/\pi}\cdot \sqrt v = \mu \end{align}

4voto

alexs77 Puntos 36

El famoso problema de Neyman Scott tiene una MLE inconsistente en el sentido de que ni siquiera converge nunca a lo correcto. Motiva el uso de la probabilidad condicional.

Toma $(X_i, Y_i) \sim \mathcal{N}\left(\mu_i, \sigma^2 \right)$ . La MLE de $\mu_i$ es $(X_i + Y_i)/2$ y de $\sigma^2$ es $\hat{\sigma}^2 = \sum_{i=1}^n \frac{1}{n} s_i^2$ con $s_i^2 = (X_i - \hat{\mu}_i)^2/2 + (Y_i - \hat{\mu}_i)^2/2 = (X_i - Y_i)^2 / 4$ que tiene un valor esperado $\sigma^2/4$ y, por tanto, sesgada por un factor de 2.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X