La idea de la unbaised la varianza de la estimación, es tener E(s2)=σ2 donde la expectativa es con respecto a la distribución de muestreo de s2 o, equivalentemente, con respecto a la distribución de muestreo de x1,…,xN. Así que si sabíamos que la verdadera media y la verdadera varianza, pero no el valor de s2, s2 habría esperado que el valor de σ2.
Ahora tenemos:
E(s2)=E[1N+k∑i(xi−ˉx)2]=1N+kE[∑ix2i−Nˉx2]
=1N+k[∑iE(x2i)−NE(ˉx2)]
Podemos utilizar la identidad de E(Y2)=V(Y)+[E(Y)]2, y el hecho de que sabemos E(xi)=μV(xi)=σ2, y la suma se convierte en:
∑iE(x2i)=∑iV(xi)+[E(xi)]2=∑i(σ2+μ2)=N(σ2+μ2)
Ahora para calcular la segunda expectativa, podemos re-escribir NE(ˉx2) como sigue:
NE(ˉx2)=NE([1N∑ixi]2)=1NE(∑i∑jxjxi)=1N∑i∑jE(xjxi)
=1N(∑iE(x2i)+∑i≠jE(xjxi))=(σ2+μ2)+1N∑i≠jE(xjxi)
Ahora tenemos otra identidad que puede utilizar E(YZ)=Cov(Y,Z)+E(Y)E(Z). Su planteamiento del problema no se especifica si o no la muestra es independiente, pero sí decir que tienen la misma distribución. Así que podemos aprovechar Cov(xixj)=ρσ2 para algunos de correlación −1N−1≤ρ≤1 (límite inferior necesarios para la positiva de la varianza). A continuación, obtener:
NE(ˉx2)=(σ2+μ2)+1N∑i≠j(ρσ2+μ2)=(σ2+μ2)+N(N−1)N(ρσ2+μ2)
=σ2(1+(N−1)ρ)+Nμ2
Poner esto juntos, tenemos:
E(s2)=1N+k[N(σ2+μ2)−(σ2(1+(N−1)ρ)+Nμ2)]=N−1N+kσ2(1−ρ)
Así que si elegimos k=−1 y suponemos que ρ=0 (es decir, de la independencia), luego tenemos a E(s2)=σ2, y obtener una estimación insesgada de s2. Sin embargo, si asumimos que ρ=−1N−1 (es decir, la suma es fija), entonces obtenemos E(s2)=N−1N+kσ2(1+1N−1)=NN+kσ2 y deberíamos k=0 para una estimación insesgada. Así que uno puede interpretar la intuición detrás de N−1 como cuenta el hecho de que la verdadera media ha sido estimado por la media de la muestra (y por lo tanto no es "fija").
Para minimum mean square error, se requieren MSE(s2)=E[(s2−σ2)2] a de ser de un mínimo para algunos la elección de k. Ampliar el error cuadrático medio, se obtiene:
MSE(s2)=E[s4]−2σ2E[s2]+σ4
E(s2) ha sido calculado ya, ahora para calcular el E(s4). el cuadrado de s2 nos da:
s4=1(N+k)2[∑ix2i−Nˉx2]2
=1(N+k)2([∑ix2i]2−2[∑ix2i][Nˉx2]+[Nˉx2]2)
=[∑ix4i+∑i≠jx2jx2i]−21N[∑ix2i][∑ix2i+∑i≠jxjxi]+1N2[∑ix2i+∑i≠jxjxi]2(N+k)2
=(1N−1)2[∑ix4i+∑i≠jx2jx2i]+21N(1N−1)[∑ix2i][∑i≠jxjxi]+1N2[∑i≠jxjxi]2(N+k)2
=f(x1,…,xN)(N+k)2
Y usted puede ver que sin algunos de los supuestos que la expectativa de estar, en general, una función de la cuarta momentos de orden E(xixjxkxl),E(x2ixjxk),E(x3ixj),E(x2ix2j),E(x4i) (que no son dadas en la pregunta). Sin embargo, su dependencia de la k es bastante simple, así que todavía puede resolver la variación problema algebraicamente con F=E[f(x1,…,xN)]. Por lo tanto tenemos:
MSE(s2)=F(N+k)2−2σ2[N−1N+kσ2(1−ρ)]+σ4
Tomando la derivada con respecto al k, ajustado a cero y resolver para k:
−2F(N+k)3+2N−1(N+k)2σ4(1−ρ)=0
⟹k=F(N−1)σ4(1−ρ)−N
Esto muestra que, a menos que F=cσ4(1−ρ) donde c sólo depende del tamaño de la muestra, el valor óptimo de k será en función de los parámetros, y por lo tanto usted no tiene ninguna "solución" de por sí, porque depende de las cosas que usted no sabe. Usted puede demostrar que si se supone independiente de la distribución normal para xi (por lo ρ=0), F=(N2−1)σ4 y consigue k=+1 como el valor óptimo.