29 votos

Problema con la prueba de la expectativa condicional como mejor predictor

Tengo un problema con la prueba de

$E(Y|X) \in \arg \min_{g(X)} E\Big[\big(Y - g(X)\big)^2\Big]$

que muy probablemente revelan un malentendido más profundo de las expectativas y las expectativas condicionales.

La prueba que conozco es la siguiente ( se puede encontrar otra versión de esta prueba ici )

\begin{align*} &\arg \min_{g(X)} E\Big[\big(Y - g(x)\big)^2\Big]\\ = &\arg \min_{g(X)} E \Big[ \big(Y - E(Y|X) + E(Y|X) - g(X)\big)^2\Big]\\ =&\arg \min_{g(x)} E \Big[ \big(Y - E(Y|X)\big)^2 + 2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) + \big(E(Y|X) - g(X)\big)^2\Big]\\ =&\arg \min_{g(x)} E \Big[ 2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) + \big(E(Y|X) - g(X)\big)^2\Big]\\ \end{align*}

La prueba continúa con un argumento que muestra que $2 E\Big[ \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big)\Big] = 0$ y por lo tanto

\begin{align*} \arg \min_{g(x)} E\Big[\big(Y - g(x)\big)^2\Big] = \arg \min_{g(x)} E \Big[\big(E(Y|X) - g(X)\big)^2\Big] \end{align*}

que se puede ver minimizado cuando $g(X) = E(Y|X)$ .

Mis dudas sobre la prueba son las siguientes:

  1. Considere

$E \Big[ 2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) + \big(E(Y|X) - g(X)\big)^2\Big]$ .

Me parece que, independientemente de cualquier argumento que demuestre que el primer término es siempre igual a cero, se puede ver que fijando $g(X) = E(Y|X)$ minimiza la expresión ya que implica $\big(E(Y|X) - g(X)\big) =0$ y por lo tanto

$E \Big[ 2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) + \big(E(Y|X) - g(X)\big)^2\Big] = E( 0 + 0)$ = 0.

Pero si esto es cierto, entonces uno podría repetir la prueba sustituyendo $E(Y|X)$ por cualquier otra función de $X$ , digamos que $h(X)$ y llegar a la conclusión de que es $h(X)$ que minimiza la expresión. Así que debe haber algo que no entiendo (¿verdad?).

  1. Tengo algunas dudas sobre el significado de $E[(Yg(X))^2]$ en el planteamiento del problema. ¿Cómo debe interpretarse la notación? ¿Significa

$E_X[(Yg(X))^2]$ , $E_Y[(Yg(X))^2]$ o $E_{XY}[(Yg(X))^2]$ ?

15voto

Jeff Bauer Puntos 236

(Esta es una adaptación de Granger & Newbold(1986) "Forecasting Economic Time Series").

Por construcción, su función de coste del error es $\left[Y-g(X)\right]^2$ . Esto incorpora un supuesto crítico (que la función de coste del error es simétrica en torno a cero) -una función de coste del error diferente no tendría necesariamente el valor esperado condicional como el $\arg \min$ de su valor esperado. No se puede minimizar la función de coste del error porque contiene cantidades desconocidas. Así que decide minimizar su valor esperado en su lugar. Entonces su función objetivo se convierte en

$$E\left[Y-g(X)\right]^2 = \int_{-\infty}^{\infty}\left[y-g(X)\right]^2f_{Y|X}(y|x)dy $$

lo que creo que responde también a su segunda pregunta. Es intuitivo que el valor esperado será de $Y$ con la condición de $X$ ya que estamos tratando de estimar/predecir $Y$ basado en $X$ . Descomponer el cuadrado para obtener

$$E\left[Y-g(X)\right]^2 = \int_{-\infty}^{\infty}y^2f_{Y|X}(y|x)dy -2g(X)\int_{-\infty}^{\infty}yf_{Y|X}(y|x)dy \\+ \Big[g(X)\Big]^2\int_{-\infty}^{\infty}f_{Y|X}(y|x)dy$$

El primer término no contiene $g(X)$ por lo que no afecta a la minimización, y se puede ignorar. La integral del segundo término es igual al valor esperado condicional de $Y$ dado $X$ y la integral del último término es igual a la unidad. Así que

$$\arg \min_{g(x)} E\left[Y-g(X)\right]^2 = \arg \min_{g(x)} \Big\{ -2g(X)E(Y\mid X) + \Big[g(X)\Big]^2 \Big\}$$

La primera derivada respecto a $g(X)$ es $-2E(Y\mid X) + 2g(X)$ lo que lleva a la condición de primer orden para la minimización $g(X) = E(Y\mid X)$ mientras que la segunda derivada es igual a $2>0$ que es suficiente para un mínimo.

ADDENDUM:La lógica del enfoque de la prueba de "sumar y restar".

El planteamiento de la pregunta desconcierta al OP porque parece tautológico. No lo es, porque aunque utilizar la táctica de sumar y restar hace un parte específica de la función objetivo cero para una elección arbitraria del término que se suma y se resta, NO iguala la función de valor , es decir, el valor de la función objetivo evaluado en el minimizador candidato.

Para la elección $g(X) = E(Y \mid X)$ tenemos la función de valor $ V\left(E(Y\mid X)\right) = E\Big[ (Y-E(Y \mid X))^2\mid X\Big]$ Para la elección arbitraria $g(X) = h(X)$ tenemos la función de valor $ V\left(h(X)\right) = E\Big[ (Y-h(X))^2\mid X\Big]$ .

Afirmo que

$$V\left(E(Y\mid X)\right) \le V\left(h(X)\right)$$ $$\Rightarrow E(Y^2\mid X) -2E\Big [(YE(Y \mid X))\mid X\Big] + E\Big [(E(Y \mid X))^2\mid X\Big] \\\le E(Y^2\mid X) -2E\Big [(Yh(X))\mid X\Big] + E\Big [(h(X))^2\mid X\Big]$$

El primer término del LHS y el RHS se cancelan. Obsérvese también que la expectativa exterior está condicionada por $X$ . Por las propiedades de las expectativas condicionales terminamos con

$$...\Rightarrow -2E(Y \mid X)\cdot E\Big (Y\mid X\Big) + \Big [E(Y \mid X)\Big]^2 \le -2E(Y\mid X)h(X) + \Big [h(X)\Big]^2$$

$$\Rightarrow 0 \le \Big [E(Y \mid X)\Big]^2-2E(Y\mid X)h(X) + \Big [h(X)\Big]^2$$

$$\Rightarrow 0 \le \Big [E(Y \mid X) - h(x)\Big]^2$$ que se mantiene con desigualdad estricta si $h(x) \neq E(Y \mid X)$ . Así que $E(Y \mid X)$ es el minimizador global y único.

Pero esto también dice que el enfoque de "sumar y restar" no es la forma más esclarecedora de la prueba aquí.

8voto

digsrafik Puntos 101

Hay un punto de vista matemático que es muy sencillo. Lo que tienes es un problema de proyección en un espacio de Hilbert, muy parecido a proyectar un vector en $\mathbb{R}^n$ en un subespacio.

Dejemos que $(\Omega, \mathcal{F}, \mu)$ denotan el espacio de probabilidad subyacente. Para que el problema tenga sentido, considere las variables aleatorias con segundos momentos finitos, es decir, el espacio de Hilbert $L^2(\Omega, \mathcal{F}, \mu)$ . El problema ahora es este: dado $X, Y \in L^2(\Omega, \mathcal{F}, \mu)$ , hallar la proyección de $Y$ en el subespacio $L^2(\Omega, \mathcal{F}_X, \mu)$ , donde $\mathcal{F}_X$ es el $\sigma$ -subálgebra de $\mathcal{F}$ generado por $X$ . (Al igual que en el caso de dimensión finita, la minimización de $L^2$ -distancia a un subespacio significa encontrar la proyección). La proyección deseada es $E(Y|X)$ por construcción. (En realidad, esto caracteriza a $E(Y|X)$ si se inspecciona la prueba de la existencia).

Modifier

Re "...por construcción".

Por definición, la media condicional de $Y$ en $X$ es una variable aleatoria $\psi$ con las dos propiedades siguientes:

  1. $\psi$ se encuentra en $L^2(\Omega, \mathcal{F}_X, \mu)$ .

  2. $E[\psi 1_{A}] = E[Y 1_{A}]$ para todos $A \in \mathcal{F}_X$ lo que implica que $E[\psi g] = E[Y g]$ para todos $g \in L^2(\Omega, \mathcal{F}_X, \mu)$ por el uso estándar de la densidad de las funciones simples.

Los argumentos estándar de proyección en el espacio de Hilbert muestran que tal $\psi$ siempre existe y es único.

Esto se aplica a cualquier espacio de Hilbert. Lo anterior puede ser reformulado textualmente para, por ejemplo, $\mathbb{R}^n$ :

Dejemos que $Y \in \mathbb{R}^n$ y $V$ sea un subespacio. Entonces la proyección de $Y$ en $V$ se caracteriza por las mismas dos propiedades:

  1. $\psi$ se encuentra en $V$ .

  2. $\langle \psi, g \rangle = \langle Y, g \rangle$ para todos $g \in V$ .

Nota Este debate se limita a $L^2$ variables aleatorias, como hace implícitamente la pregunta original. La media condicional en general se define para $L^1$ variables aleatorias, lo que supone un $L^2$ . $L^1$ es un espacio de Banach y la media condicional sigue siendo una proyección, en un sentido apropiado.

7voto

patfla Puntos 1

Obsérvese que para demostrar la respuesta, en realidad sólo hay que demostrar que

$$E \Big[ -2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) \Big] = 0$$

En cuanto a la expectativa que se debe tomar, se toma condicionalmente, de lo contrario el término

$$\arg \min_{g(X)} E\Big[\big(Y - g(X)\big)^2\Big]$$

No tiene sentido, ya que $g(X)$ es una variable aleatoria si $E$ es $E_{XY}$ y no $E_{Y|X}$ . Mostrar que realmente debería escribir $E\Big[\big(Y - g(X)\big)^2|X\Big]$ o $E_{Y|X}\Big[\big(Y - g(X)\big)^2\Big]$ para dejarlo claro. Ahora bien, dada esta aclaración, el término $\big(E(Y|X) - g(X)\big)$ es una constante, y se puede sacar fuera de la expectación, y lo has hecho:

$$-2\big(E(Y|X) - g(X)\big)E \Big[ \big(Y - E(Y|X)\big)|X\Big]=-2\big(E(Y|X) - g(X)\big)\Big[ E(Y|X) - E\big[E(Y|X)|X\big]\Big]=-2\big(E(Y|X) - g(X)\big)\Big[ E(Y|X) - E(Y|X)\Big]=0$$

Por lo tanto, se puede escribir la función objetivo como

$$E_{Y|X}\Big[\big(Y - g(X)\big)^2\Big]=E_{Y|X}\Big[\big(Y - E_{Y|X}(Y|X)\big)^2\Big]+\big(E_{Y|X}(Y|X) - g(X)\big)^2$$

El minimizador es obvio desde aquí. Obsérvese que si se promedia sobre $X$ también, entonces se puede utilizar un argumento muy similar para demostrar:

$$E_{X}\Big[\big(E(Y|X) - g(X)\big)^2\Big]=E_{X}\Big[\big(E_{Y|X}(Y|X) - E_X\big[E_{Y|X}(Y|X)\big]\big)^2\Big]+\Big(E_{X}\big[E_{Y|X}(Y|X)\big] - E_X\big[g(X)\big]\Big)^2$$

Esto demuestra que si se fija $g(X)=E_{Y|X}(Y|X)$ para cada $X$ entonces también tienes un minimizador sobre esta función. Así que en cierto sentido no importa realmente si $E$ es $E_{YX}$ o $E_{Y|X}$ .

3voto

user133127 Puntos 237

En cuanto a su última pregunta, la expectativa puede ser $p(x,y)$ (el error incondicional) o con respecto a $p(y\mid x)$ (el error condicional en cada valor $X = x$ ). Felizmente, la minimización del error condicional en cada valor $X = x$ también minimiza el error incondicional, por lo que no es una distinción crucial.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X