Yo entiendo el asunto en el underfitting/sobreajuste términos, pero me siguen luchando para agarrar el exacto matemáticas detrás de él.
Lo he comprobado en varias fuentes (aquí, aquí, aquí, aquí y aquí), pero todavía no veo por qué exactamente el sesgo y la varianza se oponen unos a otros, como por ejemplo, $e^x$ $e^{-x}$ hacer:
http://scott.fortmann-roe.com/docs/BiasVariance.html
Parece que todo el mundo se deriva de la siguiente ecuación (omitiendo la irreductible de error $\epsilon$ aquí) $$E[(\hat{\theta}_n - \theta)^2]=E[(\hat{\theta}_n - E[\hat{\theta}_n])^2] + (E[\hat{\theta}_n - \theta])^2$$ y entonces, en lugar de conducir el punto de inicio y muestra exactamente por qué los términos de la derecha se comportan de la manera en que lo hacen, empieza a vagar sobre las imperfecciones de este mundo y cuán imposible es ser preciso y universal al mismo tiempo.
La obvia contador de ejemplo
Decir, una media de población $\mu$ se calcula mediante la media de la muestra $\bar{X}_n = \frac{1}{n}\sum\limits_{i=1}^{n}X_i$, es decir,$\theta\equiv\mu$$\hat{\theta}_n\equiv\bar{X}_n$, entonces: $$MSE = var(\bar{X}_n - \mu) + (E[\bar{X}_n] - \mu)^2 $$ desde $E[\bar{X}_n]=\mu$ $var(\mu) = 0$ hemos $$MSE = var(\bar{X}_n) = \frac{1}{n}var(X)\xrightarrow[n\to\infty]{}0$$
Así, las preguntas son:
- ¿Por qué exactamente $E[(\hat{\theta}_n - E[\hat{\theta}_n])^2]$ $E[\hat{\theta}_n - \theta]$ no puede ser disminuido de forma simultánea?
- ¿Por qué no podemos simplemente tomar algunos estimador imparcial y reducir la varianza mediante el aumento de tamaño de la muestra?
Gracias.