Has señalado un problema importante con la insesgadez como desiderátum para un estimador, y es que no es invariable bajo la reparametrización. Lo mismo ocurre con una distribución exponencial. Hay dos parámetros comunes que se utilizan, la tasa $\lambda$ o la media $\theta=1/\lambda.$ MLE es invariante por lo que lo que se obtiene de cualquier manera es consistente: $$ \hat\theta_{MLE} = \overline X\\\hat\lambda_{MLE} = \frac{1}{\overline X}$$ donde $\overline X$ es la media de la muestra. Sin embargo, como generalmente $\tfrac1{E(X)} \ne E\left(\tfrac1{X}\right),$ resulta que mientras $\hat \theta_{MLE}$ es imparcial, $\hat \lambda_{MLE}$ es parcial.
Una respuesta obvia parecería ser que deberíamos utilizar el estimador ajustado al sesgo para cualquier versión del parámetro que nos "importe" más, o en otras palabras, qué parámetro interpretación está más en consonancia con lo que intuitivamente tratamos de medir mediante la estimación. Según esta norma, se podría pensar que deberíamos utilizar un estimador insesgado para la desviación estándar en lugar de la varianza, ya que la desviación estándar es intuitivamente el tamaño de una fluctuación media.
Por muy sencillo que parezca, hay varios problemas con esta línea de pensamiento. El primero es bastante menor, pero merece la pena señalarlo: en realidad, la desviación estándar no es el tamaño de una fluctuación media. Eso sería algo más cercano a la desviación media, y para las distribuciones normales esto es diferente por un factor de $\sqrt{2/\pi}$ (o algo así... no me cites).
Lo que me lleva al segundo punto más importante. ¿Cuál es la fórmula incluso para la desviación estándar ajustada al sesgo? Es muy complicada en comparación con la varianza ajustada al sesgo (para la distribución normal). Además, el estimador insesgado de la varianza tiene una buena propiedad: es insesgado independientemente de la distribución. La forma precisa del estimador insesgado de la desviación típica depende de la distribución. Dicho esto, es bastante obvio por qué los autores prefieren el estimador insesgado de la varianza.
(También el estimador insesgado, es un término equivocado. Me refiero al estimador proporcional a la raíz cuadrada del estimador de la varianza estándar con la constante de proporcionalidad elegida para que sea insesgado).
Afortunadamente, los autores no están sacrificando mucho en aras de la parsimonia: la insesgadez es una propiedad extremadamente sobrevalorada y no deberíamos preocuparnos demasiado por ella. Piensa en lo que significa: significa que si haces el experimento en el que recoges el tamaño de la muestra $n$ un millón de veces, el valor medio que se obtiene para el estimador es exactamente, al cuadrado, igual al parámetro verdadero. Piénsalo literalmente: ¿es esto lo que quieres? Parece que lo ideal sería que así fuera, pero nos falta una dimensión importante de la varianza del estimador. Seguramente preferiríamos un estimador cuya media fuera $1\%$ mayor que el valor real y cuyas fluctuaciones son $2\%$ a uno cuya media es exactamente el valor verdadero y cuyas fluctuaciones son $20\%.$
Una métrica popular para la calidad de un estimador es el error cuadrático medio. Esto incluye las contribuciones tanto de la varianza como del sesgo. Y generalmente no es igual al estimador insesgado. Sin embargo, al igual que el estimador insesgado de la desviación estándar, depende de la distribución... lo que, entre eso y la sobrecarga conceptual adicional, explica por qué éste no es "estándar".
En cuanto a la razón por la que solemos utilizar el estimador de la varianza corregido por el sesgo en lugar del MLE, en realidad se trata de que normalmente los MLE corregidos por el sesgo tienen una eficiencia muestral finita marginalmente mejor que los no corregidos. También está el hecho de que la versión insesgada es la que hace que la fórmula de la prueba t sea menos engorrosa, lo cual es una explicación que probablemente no debería pasarse por alto.
0 votos
Para responder a la pregunta sobre la desviación estándar: no siempre existe un estimador insesgado de algún parámetro. En el caso de la desviación estándar, bueno... no hay ninguno.
0 votos
@ClementC. Hay un estimador no bautizado de la desviación estándar para variables normales independientes, como se muestra en la wikipedia. ¿Por qué lo usamos raramente?