13 votos

Sesgo/varianza de compromiso de matemáticas

Yo entiendo el asunto en el underfitting/sobreajuste términos, pero me siguen luchando para agarrar el exacto matemáticas detrás de él.

Lo he comprobado en varias fuentes (aquí, aquí, aquí, aquí y aquí), pero todavía no veo por qué exactamente el sesgo y la varianza se oponen unos a otros, como por ejemplo, $e^x$ $e^{-x}$ hacer:

http://scott.fortmann-roe.com/docs/BiasVariance.html

Parece que todo el mundo se deriva de la siguiente ecuación (omitiendo la irreductible de error $\epsilon$ aquí) $$E[(\hat{\theta}_n - \theta)^2]=E[(\hat{\theta}_n - E[\hat{\theta}_n])^2] + (E[\hat{\theta}_n - \theta])^2$$ y entonces, en lugar de conducir el punto de inicio y muestra exactamente por qué los términos de la derecha se comportan de la manera en que lo hacen, empieza a vagar sobre las imperfecciones de este mundo y cuán imposible es ser preciso y universal al mismo tiempo.

La obvia contador de ejemplo

Decir, una media de población $\mu$ se calcula mediante la media de la muestra $\bar{X}_n = \frac{1}{n}\sum\limits_{i=1}^{n}X_i$, es decir,$\theta\equiv\mu$$\hat{\theta}_n\equiv\bar{X}_n$, entonces: $$MSE = var(\bar{X}_n - \mu) + (E[\bar{X}_n] - \mu)^2 $$ desde $E[\bar{X}_n]=\mu$ $var(\mu) = 0$ hemos $$MSE = var(\bar{X}_n) = \frac{1}{n}var(X)\xrightarrow[n\to\infty]{}0$$

Así, las preguntas son:

  1. ¿Por qué exactamente $E[(\hat{\theta}_n - E[\hat{\theta}_n])^2]$ $E[\hat{\theta}_n - \theta]$ no puede ser disminuido de forma simultánea?
  2. ¿Por qué no podemos simplemente tomar algunos estimador imparcial y reducir la varianza mediante el aumento de tamaño de la muestra?

Gracias.

12voto

icelava Puntos 548

En primer lugar, nadie dice que el cuadrado del sesgo y la varianza se comportan como $e^{\pm x}$, en el caso de que usted se está preguntando. El punto es simplemente que uno aumenta y el otro disminuye. Es similar a las curvas de oferta y demanda en la microeconomía, que tradicionalmente son representados como líneas rectas, que a veces confunde a la gente. De nuevo, el punto es simplemente que uno se inclina hacia abajo y el otro hacia arriba.

Su clave es la confusión acerca de lo que está en el eje horizontal. Es la complejidad del modelo - no el tamaño de la muestra. Sí, como escribir, si utilizamos algunos estimador imparcial, al aumentar el tamaño de la muestra va a reducir su varianza, y vamos a tener un mejor modelo. Sin embargo, el sesgo y la varianza de equilibrio es en el contexto de un tamaño de muestra fijo, y lo que varía es la complejidad del modelo, por ejemplo, mediante la adición de predictores.

Si Un modelo es demasiado pequeño y no contiene predictores cuyo verdadero valor del parámetro es distinto de cero, y el modelo B, abarca Un modelo, sino que contiene todos los predictores cuyos valores de los parámetros son cero, entonces las estimaciones de los parámetros de Un modelo estará sesgada y de modelo B imparcial -, pero la varianza de las estimaciones de los parámetros en el modelo a sea menor que para los mismos parámetros en el modelo B.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X