He estado intentando entender la demostración de la fórmula de descomposición sesgo/varianza, y me he encontrado con una laguna que no he podido llenar. Utilizaré la notación de The Elements of Statistical Learning:
Supongamos que nuestros datos siguen un modelo de la forma $y = f(x)+\epsilon$ donde $f$ es una función determinista (digamos, de $\mathbb{R}^d$ a $\mathbb{R}$ ), y $\epsilon$ es una función aleatoria con media cero y varianza finita $\sigma^2$ . Formulamos nuestro modelo de predicción como $\hat{y}=\hat{f}(x)$ donde $\hat{f}$ es una función que depende de los datos observados. Así, digamos que hacemos $m$ medidas, $\{(x^{(1)},y^{(1)}),\dots,(x^{(m)},y^{(m)})\}$ y construimos nuestro predictor $\hat{f}$ basado en estos datos (por ejemplo, el OLS donde podemos escribir la función $\hat{f}$ explícitamente en términos de nuestro conjunto de datos). Hablemos ahora de sesgo y varianza. Definamos el sesgo de $\hat{f}$ por
$$ \text{bias}(\hat{f}(x))=\mathbb{E}(\hat f(x)-f(x)). $$
Aquí $f$ no es aleatorio, así que no importa si lo ponemos dentro de la expectativa. Ahora, de forma similar, definimos la varianza por
$$ \newcommand{\var}{var} \var(\hat f (x)) = \mathbb{E}(\hat f(x)^2) - (\mathbb{E}(\hat f(x)))^2. $$
Al intentar demostrar la fórmula para la descomposición del error cuadrático medio como suma del error intrínseco procedente de la varianza de $\epsilon$ más la varianza de $\hat f$ más el cuadrado del sesgo de $\hat f$ hay un paso que normalmente no está muy justificado: la mayoría de las fuentes que he visto dicen algo parecido a " $\mathbb{E}(\epsilon \hat f)=0$ desde $\epsilon$ es independiente de $\hat f$ ". Pero para mí, esto no está muy claro, ya que $\hat f$ se construye utilizando los datos observados, que vienen con algo de ruido de $\epsilon$ . He intentado realizar los cálculos de una manera más formal, intentando tener claras las expectativas pero me he perdido un poco . ¿Cómo se calcula realmente algo como el sesgo de $\hat f$ ? Más concretamente, ¿cuál es el espacio de parámetros sobre el que se integra?
Gracias de antemano.
0 votos
La única explicación que se me ocurre es que al computar $\mathbb{E}(y-\hat f)^2$ el término de error $\epsilon$ que aparece en $y$ es independiente del término de error que aparece en $\hat f$ ya que corresponden a mediciones diferentes, y podemos suponer que dichos errores son efectivamente independientes.
0 votos
Relacionado con stats.stackexchange.com/a/354284/192854