26 votos

Sesgo del estimador del momento de la distribución lognormal

Estoy haciendo algunos numérico experimento que consiste en el muestreo de una distribución lognormal $X\sim\mathcal{LN}(\mu, \sigma)$, y tratando de estimar los momentos $\mathbb{E}[X^n]$ a través de dos métodos:

  1. Mirando a la media de la muestra de la $X^n$
  2. La estimación de $\mu$ $\sigma^2$ utilizando el ejemplo de los medios de $\log(X), \log^2(X)$, y a continuación, utilizando el hecho de que para una distribución logarítmico-normal, tenemos $\mathbb{E}[X^n]=\exp(n \mu + (n \sigma)^2/2)$.

La pregunta es:

Me parece experimentalmente que el segundo método se realiza mucho mejor que la primera, cuando yo tenga el número de muestras fijadas, y aumentar el $\mu, \sigma^2$ por algún factor T. hay una simple explicación para este hecho?

Estoy adjuntando una figura en la cual el eje de las x es T, mientras que el eje y son los valores de $\mathbb{E}[X^2]$ comparando los verdaderos valores de $\mathbb{E}[X^2] = \exp(2 \mu + 2 \sigma^2)$ (línea naranja), a los valores estimados. método 1 - puntos de color azul, el método de 2 puntos verdes. eje y en escala logarítmica

True and estimated values for $\mathbb{E}[X^2]$. Blue dots are sample means for $\mathbb{E}[X^2]$ (method 1), while the green dots are the estimated values using method 2. The orange line is calculated from the known $\mu$, $\sigma$ by the same equation as in method 2. y axis is in log scale

EDITAR:

A continuación es de un mínimo de código de Mathematica para producir los resultados para una T, con la salida de:

   ClearAll[n,numIterations,sigma,mu,totalTime,data,rmomentFromMuSigma,rmomentSample,rmomentSample]
(* Define variables *)
n=2; numIterations = 10^4; sigma = 0.5; mu=0.1; totalTime = 200;
(* Create log normal data*)
data=RandomVariate[LogNormalDistribution[mu*totalTime,sigma*Sqrt[totalTime]],numIterations];

(* the moment by theory:*)
rmomentTheory = Exp[(n*mu+(n*sigma)^2/2)*totalTime];

(*Calculate directly: *)
rmomentSample = Mean[data^n];

(*Calculate through estimated mu and sigma *)
muNumerical = Mean[Log[data]]; (*numerical \[Mu] (gaussian mean) *)
sigmaSqrNumerical = Mean[Log[data]^2]-(muNumerical)^2; (* numerical gaussian variance *)
rmomentFromMuSigma = Exp[ muNumerical*n + (n ^2sigmaSqrNumerical)/2];

(*output*)
Log@{rmomentTheory, rmomentSample,rmomentFromMuSigma}

Salida:

(*Log of {analytic, sample mean of r^2, using mu and sigma} *)
{140., 91.8953, 137.519}

anteriormente, el segundo resultado es la media de la muestra de $r^2$, que está por debajo de los otros dos resultados

23voto

Lev Puntos 2212

Hay algo enigmático en los resultados, ya que la

  1. el primer método proporciona un estimador imparcial de $\mathbb{E}[X^2]$, es decir,$$\frac{1}{N}\sum_{i=1}^N X_i^2$$has $\ mathbb{E}[X^2]$ como su media. Por lo tanto los puntos de color azul debe estar en torno a los valores esperados (curva naranja);
  2. el segundo método proporciona un estimador sesgado de $\mathbb{E}[X^2]$, es decir,$$\mathbb{E}[\exp(n \hat\mu + n^2 \hat{\sigma}^2/2)]>\exp(n \mu + (n \sigma)^2/2)$$when $\ hat\mu$ and $\hat\sigma2$ are unbiased estimators of $\mu$ and $\sigma2$ respectivamente, y es por lo tanto extraño que los puntos verdes están alineados con el naranja de la curva.

pero son debido al problema y no a los cálculos numéricos: he repetido el experimento en R y dieron la siguiente imagen con el mismo código de color y la misma secuencia de $\mu_T$'s y $\sigma_T$'s, que representa a cada estimador dividido por la verdadera expectativa:

Two empirical second moments, based on 10⁶ log-normal simulations

Aquí es el correspondiente código R:

moy1=moy2=rep(0,200)
mus=0.14*(1:200)
sigs=sqrt(0.13*(1:200))
tru=exp(2*mus+2*sigs^2)
for (t in 1:200){
x=rnorm(1e5)
moy1[t]=mean(exp(2*sigs[t]*x+2*mus[t]))
moy2[t]=exp(2*mean(sigs[t]*x+mus[t])+2*var(sigs[t]*x+mus[t]))}

plot(moy1/tru,col="blue",ylab="relative mean",xlab="T",cex=.4,pch=19)
abline(h=1,col="orange")
lines((moy2/tru),col="green",cex=.4,pch=19)

Por lo tanto, de hecho, hay un colapso de la segunda empírica momento como $\mu$ $\sigma$ de aumento que me atribuirían el enorme aumento en la varianza de dicho segundo empírico momento como $\mu$ $\sigma$ de aumento.

Mi explicación de este curioso fenómeno es que, mientras que $\mathbb{E}[X^2]$ obviamente es la media de $X^2$, no es un valor central: de hecho, la mediana de $X^2$ es igual a $e^{2\mu}$. Cuando se representa la variable aleatoria $X^2$ $\exp\{2\mu+2\sigma\epsilon\}$ donde $\epsilon\sim\mathcal{N}(0,1)$, es claro que, al $\sigma$ es lo suficientemente grande, la variable aleatoria $\sigma\epsilon$ casi nunca de la la magnitud de $\sigma^2$. En otras palabras, si $X$ es $\mathcal{LN}(\mu,\sigma)$ $$\begin{align*}\mathbb{P}(X^2>\mathbb{E}[X^2])&=\mathbb{P}(\log\{X^2\}>2\mu+2\sigma^2)\\&=\mathbb{P}(\mu+\sigma\epsilon>\mu+\sigma^2)\\&=\mathbb{P}(\epsilon>\sigma)\\ &=1-\Phi(\sigma)\end{align*}$$ que puede ser arbitrariamente pequeño.

13voto

Martin Robins Puntos 1893

Pensé en tirar unos higos que muestra que tanto user29918 y Xi an parcelas son consistentes. Fig 1 se indica lo user29918 hizo, y la figura 2 (basado en los mismos datos), ¿ qué Xi'an hizo para su parcela. Mismo resultado, presentación diferente.

Lo que sucede es que a medida que T aumenta, las desviaciones se vuelve enorme y el estimador $\frac{1}{n} \sum_i x_i^2$ vuelve como tratando de estimar la media de población de la Powerball Lotto por la compra de billetes de lotería! Un gran porcentaje de la época, se calculará la rentabilidad (porque no se muestra la observación golpea el jackpot) y un pequeño porcentaje de las veces, usted masivamente a sobreestimar la rentabilidad (porque hay un ganador del premio mayor en la muestra). La media de la muestra es una estimación insesgada pero no se espera que sea preciso, incluso con miles y miles de sorteos! De hecho, a medida que se vuelve más y más difícil para ganar la lotería, su media de la muestra estará por debajo de la media de la población es la gran mayoría del tiempo.

Comentarios Adicionales:

  1. Un estimador imparcial ¿ no significa que el estimador se espera que se cierre! Los puntos azules no necesitan estar cerca de la expectativa. Por ejemplo. una única observación elegido al azar da una estimación insesgada de la población, pero que el estimador no se espera que se cierre.
  2. El problema está subiendo como la varianza se está convirtiendo en absolutamente astronómico. Como la varianza va batshit, la estimación para el primer método está siendo impulsado a ser sólo un par de observaciones. También se comienza a tener una muy pequeña probabilidad de un LOCAMENTE, LOCAMENTE, LOCAMENTE gran número de...
  3. Esta es una explicación intuitiva. Xi'an tiene un sistema más formal de la derivación. Su resultado $P(X^2 > E[X^2]) = 1 - \Phi(\sigma)$ implica que como $\sigma$ se hace grande, se vuelve muy poco probable que alguna vez dibujar una observación por encima de la media, incluso con miles de observaciones. Mi lenguaje de "ganar la lotería" se refiere a un evento donde $X^2 > E[X^2]$. enter image description here

enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X