10 votos

El predictor y el error son independientes

He estado intentando entender la demostración de la fórmula de descomposición sesgo/varianza, y me he encontrado con una laguna que no he podido llenar. Utilizaré la notación de The Elements of Statistical Learning:

Supongamos que nuestros datos siguen un modelo de la forma $y = f(x)+\epsilon$ donde $f$ es una función determinista (digamos, de $\mathbb{R}^d$ a $\mathbb{R}$ ), y $\epsilon$ es una función aleatoria con media cero y varianza finita $\sigma^2$ . Formulamos nuestro modelo de predicción como $\hat{y}=\hat{f}(x)$ donde $\hat{f}$ es una función que depende de los datos observados. Así, digamos que hacemos $m$ medidas, $\{(x^{(1)},y^{(1)}),\dots,(x^{(m)},y^{(m)})\}$ y construimos nuestro predictor $\hat{f}$ basado en estos datos (por ejemplo, el OLS donde podemos escribir la función $\hat{f}$ explícitamente en términos de nuestro conjunto de datos). Hablemos ahora de sesgo y varianza. Definamos el sesgo de $\hat{f}$ por

$$ \text{bias}(\hat{f}(x))=\mathbb{E}(\hat f(x)-f(x)). $$

Aquí $f$ no es aleatorio, así que no importa si lo ponemos dentro de la expectativa. Ahora, de forma similar, definimos la varianza por

$$ \newcommand{\var}{var} \var(\hat f (x)) = \mathbb{E}(\hat f(x)^2) - (\mathbb{E}(\hat f(x)))^2. $$

Al intentar demostrar la fórmula para la descomposición del error cuadrático medio como suma del error intrínseco procedente de la varianza de $\epsilon$ más la varianza de $\hat f$ más el cuadrado del sesgo de $\hat f$ hay un paso que normalmente no está muy justificado: la mayoría de las fuentes que he visto dicen algo parecido a " $\mathbb{E}(\epsilon \hat f)=0$ desde $\epsilon$ es independiente de $\hat f$ ". Pero para mí, esto no está muy claro, ya que $\hat f$ se construye utilizando los datos observados, que vienen con algo de ruido de $\epsilon$ . He intentado realizar los cálculos de una manera más formal, intentando tener claras las expectativas pero me he perdido un poco . ¿Cómo se calcula realmente algo como el sesgo de $\hat f$ ? Más concretamente, ¿cuál es el espacio de parámetros sobre el que se integra?

Gracias de antemano.

0 votos

La única explicación que se me ocurre es que al computar $\mathbb{E}(y-\hat f)^2$ el término de error $\epsilon$ que aparece en $y$ es independiente del término de error que aparece en $\hat f$ ya que corresponden a mediciones diferentes, y podemos suponer que dichos errores son efectivamente independientes.

0 votos

7voto

Jeff Bauer Puntos 236

Los subíndices y la exposición clara de las dependencias son importantes. Investigamos la predicción error. Construimos nuestro predictor basándonos en datos $\{(x^{(1)},y^{(1)}),\dots,(x^{(m)},y^{(m)})\}$ escriba $\hat f = \hat f_m$ recordarlo. A continuación, consideramos la predicción

$$y^{(m+1)} = f[x^{(m+1)}]+ \epsilon^{(m+1)}$$

basado en $x^{(m+1)}$ .

El error cuadrático medio de la predicción aquí es

$$E\Big[\hat f_m[x^{(m+1)}] - y^{(m+1)}\Big]^2$$

y la expresión problemática después de manipulaciones y descomposiciones es

$$E\Big[\hat f_m[x^{(m+1)}] \cdot \epsilon^{(m+1)}\Big]$$

Pero $\epsilon^{(m+1)}$ no ha participado directamente en la construcción $\hat f_m()$ porque para ello sólo utilizamos datos hasta $m$ . Bajo las suposiciones adicionales, pero habitualmente realizadas, de que

a) $x^{(m+1)}$ es independiente de $\epsilon^{(m+1)}$ y b) que las observaciones son independientes,

obtenemos el resultado habitual que aparece en la literatura.

0 votos

La hipótesis "a" parece natural, pero la "b" no es demasiado estricta en las series temporales? El problema de la predicción no es de interés primario exactamente en él?

0 votos

@markowitz Ciertamente, pero aquí se trata del enfoque "tradicional", "predicción a partir de regresión". El propósito de mi post era aclarar los supuestos subyacentes a la OP, no para argumentar a favor del realismo de este modelo de predicción.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X