7 votos

¿Es adecuado el uso del estimador insesgado?

A veces me parece que el uso del estimador insesgado es bastante confuso. Por ejemplo, el estimador insesgado de la varianza: $$S^2=\frac{\sum (X_i-\bar{X})^2}{n-1}\,.$$

Es cierto, es la expectativa de varianza. Pero, ¿cuándo debemos utilizarla? Es decir, hay otras formas de estimar $\sigma^2$ como el MLE. ¿Cómo puedo saber cuándo debo utilizar la MLE y cuándo debo utilizar el estimador no bautizado?

En segundo lugar, algunos libros (como los programas y libros de texto de nivel A y AP) utilizan $S$ como una estimación de la desviación estándar. Sin embargo, $S$ NO es una estimación imparcial. Esto me deja muy perplejo porque no sé qué es lo que intentan hacer. ¿Por qué no utilizan un estimador insesgado de la desviación estándar? Aquí hay algunos estimadores insesgados de la desviación estándar. https://en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation#Background

Así que tengo dos preguntas:

  1. ¿Cuándo debemos utilizar un estimador insesgado? ¿Cómo puedo elegir entre la estimación de máxima probabilidad y la estimación insesgada?

  2. ¿Por qué en algunos libros se utiliza el estimador insesgado de tal manera que termina con un sesgo?

0 votos

Para responder a la pregunta sobre la desviación estándar: no siempre existe un estimador insesgado de algún parámetro. En el caso de la desviación estándar, bueno... no hay ninguno.

0 votos

@ClementC. Hay un estimador no bautizado de la desviación estándar para variables normales independientes, como se muestra en la wikipedia. ¿Por qué lo usamos raramente?

6voto

Has señalado un problema importante con la insesgadez como desiderátum para un estimador, y es que no es invariable bajo la reparametrización. Lo mismo ocurre con una distribución exponencial. Hay dos parámetros comunes que se utilizan, la tasa $\lambda$ o la media $\theta=1/\lambda.$ MLE es invariante por lo que lo que se obtiene de cualquier manera es consistente: $$ \hat\theta_{MLE} = \overline X\\\hat\lambda_{MLE} = \frac{1}{\overline X}$$ donde $\overline X$ es la media de la muestra. Sin embargo, como generalmente $\tfrac1{E(X)} \ne E\left(\tfrac1{X}\right),$ resulta que mientras $\hat \theta_{MLE}$ es imparcial, $\hat \lambda_{MLE}$ es parcial.

Una respuesta obvia parecería ser que deberíamos utilizar el estimador ajustado al sesgo para cualquier versión del parámetro que nos "importe" más, o en otras palabras, qué parámetro interpretación está más en consonancia con lo que intuitivamente tratamos de medir mediante la estimación. Según esta norma, se podría pensar que deberíamos utilizar un estimador insesgado para la desviación estándar en lugar de la varianza, ya que la desviación estándar es intuitivamente el tamaño de una fluctuación media.

Por muy sencillo que parezca, hay varios problemas con esta línea de pensamiento. El primero es bastante menor, pero merece la pena señalarlo: en realidad, la desviación estándar no es el tamaño de una fluctuación media. Eso sería algo más cercano a la desviación media, y para las distribuciones normales esto es diferente por un factor de $\sqrt{2/\pi}$ (o algo así... no me cites).

Lo que me lleva al segundo punto más importante. ¿Cuál es la fórmula incluso para la desviación estándar ajustada al sesgo? Es muy complicada en comparación con la varianza ajustada al sesgo (para la distribución normal). Además, el estimador insesgado de la varianza tiene una buena propiedad: es insesgado independientemente de la distribución. La forma precisa del estimador insesgado de la desviación típica depende de la distribución. Dicho esto, es bastante obvio por qué los autores prefieren el estimador insesgado de la varianza.

(También el estimador insesgado, es un término equivocado. Me refiero al estimador proporcional a la raíz cuadrada del estimador de la varianza estándar con la constante de proporcionalidad elegida para que sea insesgado).

Afortunadamente, los autores no están sacrificando mucho en aras de la parsimonia: la insesgadez es una propiedad extremadamente sobrevalorada y no deberíamos preocuparnos demasiado por ella. Piensa en lo que significa: significa que si haces el experimento en el que recoges el tamaño de la muestra $n$ un millón de veces, el valor medio que se obtiene para el estimador es exactamente, al cuadrado, igual al parámetro verdadero. Piénsalo literalmente: ¿es esto lo que quieres? Parece que lo ideal sería que así fuera, pero nos falta una dimensión importante de la varianza del estimador. Seguramente preferiríamos un estimador cuya media fuera $1\%$ mayor que el valor real y cuyas fluctuaciones son $2\%$ a uno cuya media es exactamente el valor verdadero y cuyas fluctuaciones son $20\%.$

Una métrica popular para la calidad de un estimador es el error cuadrático medio. Esto incluye las contribuciones tanto de la varianza como del sesgo. Y generalmente no es igual al estimador insesgado. Sin embargo, al igual que el estimador insesgado de la desviación estándar, depende de la distribución... lo que, entre eso y la sobrecarga conceptual adicional, explica por qué éste no es "estándar".

En cuanto a la razón por la que solemos utilizar el estimador de la varianza corregido por el sesgo en lugar del MLE, en realidad se trata de que normalmente los MLE corregidos por el sesgo tienen una eficiencia muestral finita marginalmente mejor que los no corregidos. También está el hecho de que la versión insesgada es la que hace que la fórmula de la prueba t sea menos engorrosa, lo cual es una explicación que probablemente no debería pasarse por alto.

0 votos

Estoy totalmente de acuerdo contigo. Gracias.

2voto

Dizpo Puntos 1

No hay un criterio unánime. Lo único que hay que saber es que, dado cierto criterio, se prefiere éste a aquél, y así.

Los estimadores insesgados no aseguran una buena estimación por sí mismo . A veces, entre un estimador insesgado con una varianza muy grande y otro con poco sesgo y una varianza mucho menor, se preferirá el segundo. El criterio MSE, que elige entre varios estimadores $\hat \theta_k$ del parámetro $\theta$ que con menor MSE (si lo hay), utiliza esa misma idea, ya que $$MSE_\theta(\hat \theta)=E(\theta-\hat\theta)^2$$ y es fácil demostrarlo $$MSE_\theta(\hat \theta)=(Bias(\hat \theta))^2+Var(\hat \theta).$$

Pero aun así, no es una verdad universal que $MSE$ es el medida de la precisión. ¿Por qué elevar al cuadrado en lugar del valor absoluto? ¿Por qué la expectativa en lugar de la mediana?

El mejor criterio (si es que existe) depende del problema del mundo real que analices; dado ese criterio, puede haber (o no) un mejor estimador. La base matemática no es suficiente para dar una respuesta absoluta.

0 votos

Sólo quiero saber cómo elegir entre el MLE y la estimación insesgada.

0 votos

Cómo elegir... Depende del criterio en el que te bases para elegir. Si yo fuera tú, iría a mirar si mis profesores dicen algo al respecto. Si quieres usar MSE, bueno... El MLE es mejor (en el sentido de tener menos MSE) que el insesgado $S$ . Suelo usar ese. En cualquier caso, ni $\sqrt S$ ni la raíz cuadrada del MLE son insesgados. Y estoy de acuerdo con spaceisdarkgreen La imparcialidad está taaaan sobrevalorada...

0voto

Wings Puntos 32

Empezaré con una respuesta rápida a tu problema práctico y luego profundizaré un poco en las nociones básicas. Así pues, si el tamaño de la muestra es relativamente pequeño, debería preocuparse por el sesgo. Por lo tanto, siempre que el estimador insesgado sea un simple ajuste del MLE (o algún otro estimador "legítimo"), utilícelo. Si tiene un tamaño de muestra grande, entonces no importa, ya que el sesgo de la MLE desaparece asintóticamente y es despreciable para tamaños de muestra grandes.

Ahora, la pregunta más general: ¿cuáles son las propiedades deseadas de un "buen" estimador? Como ya se ha dicho, no hay un criterio universal, pero supongo que nadie discutirá que (1) la consistencia y (2) la estabilidad son características importantes. Por consistencia aseguramos que nuestro estimador converge con probabilidad (o casi con seguridad para la consistencia fuerte) al verdadero valor del parámetro. Además, asegura que su estimador será asintóticamente insesgado, es decir, $$ \lim_{n\to \infty} \mathbb{E}[\hat{\theta}] = \theta. $$ Y estabilidad: que su estimador no fluctúe mucho. Lo que nos lleva a la medida básica de la estabilidad - su MSE que incorpora tanto su varianza y de nuevo su sesgo, es decir, $$ \operatorname{MSE}(\hat{\theta}) = \operatorname{Var}(\hat{\theta}) + b^2(\hat{\theta}). $$
Como tal, una vez más el sesgo está involucrado, ya que un sesgo grande aumentará el MSE sustancialmente, y se aplica la primera característica de consistencia (dado un segundo momento finito) que $$ \lim_{n\to \infty}\operatorname{MSE}(\hat{\theta}) = 0. $$ Es decir, la insesgadez asintótica es de nuevo una consecuencia de una característica más básica. Además, permítanme convencerles de que incluir la insesgadez como una propiedad primaria del estimador no es inteligente, ya que pueden acabar tratando con estimadores inadmisibles. Supongamos que tenemos $X_1,...,X_n$ i.i.d de $\mathcal{N}(\mu, \sigma^2)$ entonces puedo definir un estimador tonto como $\hat{\mu} = X_1$ que es imparcial, ya que $$ \mathbb{E}[X_1]=\mu. $$
Sin embargo, su MSE es $\sigma^2$ y, por tanto, es un estimador iconsistente. De esta manera puedo construir un montón de estimadores insesgados inútiles. Por ello, incluir la insesgadez como característica principal deseable no es el enfoque correcto. Así que... ¿por qué tanto ruido con esto del sesgo? Aparentemente, puede ser útil como propiedad deseable secundaria. Es decir, la consistencia que aplica la insesgadez asintótica y la desaparición del MSE es una propiedad asintótica y nunca he sido testigo de un tamaño de muestra infinitamente grande o casi infinitamente grande. Por lo tanto, cuando se trata de estadísticas del mundo real, considerar el tamaño del sesgo puede ser valioso. Sin embargo, también hay consideraciones teóricas útiles. Si quiere establecer alguna teoría general de evaluación de estimadores, tendrá que reducir o restringir la clase con la que trata. En tal caso, restringir su atención sólo a los estimadores insesgados le llevará a formas importantes y perspicaces de obtener y comparar estimadores - UMVUE, el BLUE de Gauss-Markov en el análisis de regresión y más. A saber, una vez que restrinja su clase sólo a los estimadores insesgados aparentemente, podrá derivar teoremas generales sobre las características y formas de construcción (por ejemplo, el teorema de Lehmann-Scheffe) globalmente (sobre esta clase) de estimadores óptimos. Por lo tanto, para resumir. El sesgo en sí mismo no es tan importante. Lo que es más importante es la consistencia y la estabilidad, y una vez que se establece el objetivo de lograr estas dos propiedades, entonces al tratar sólo con estimadores insesgados se pueden derivar los mejores estimadores insesgados posibles de manera uniforme. Es decir, estar seguro de que no puedes mejorar tus estimadores. Pero una vez que se sale de este ámbito de los estimadores insesgados, se tropieza con el dilema de la compensación entre sesgo y varianza (por ejemplo, en el análisis de regresión se puede reducir sustancialmente el MSE de los estimadores con métodos como LASSO y/o regularizaciones de Ridge, pero se introducirá un sesgo en los estimadores) que abre de nuevo todo el problema de encontrar estimadores óptimos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X