12 votos

Confusión por la derivación de la función de regresión

Acabo de recibir una copia de Los elementos del aprendizaje estadístico por Hastie, Tibshirani y Friedman. En el capítulo 2 (Overview of Supervised Learning) sección 4 (Statistical Decision Theory), da una derivación de la función de regresión.

Dejemos que $X \in \mathbb{R}^p$ denota un vector de entrada aleatorio de valor real, y $Y\in\mathbb{R}$ una variable aleatoria de salida de valor real, con una distribución conjunta $Pr(X,Y)$ . Buscamos una función $f(X)$ para predecir $Y$ valores dados de la entrada $X$ . Esta teoría requiere una función de pérdida $L(Y,f(X))$ para penalizar los errores de predicción, y la más común y conveniente es la pérdida de error al cuadrado: $L(Y,f(X))=(Y f(X))^2$ . Esto nos lleva a un criterio para elegir $f$ ,

$$\begin{align*} EPE(f) &= E(Y-f(X))^2 \\ &= \int [y - f(x)]^2Pr(dx, dy)\end{align*}$$ el error de predicción esperado (al cuadrado).

Entiendo perfectamente el montaje y la motivación. Mi primera confusión es: ¿se refiere a $E[(Y - f(x))]^2$ o $E[(Y - f(x))^2]$ ? En segundo lugar, nunca he visto la notación $Pr(dx,dy)$ . ¿Puede alguien que lo haya hecho explicarme su significado? ¿Es sólo que $Pr(dx) = Pr(x)dx$ ? Por desgracia, mi confusión no termina aquí,

Acondicionando el $X$ podemos escribir $EPE$ como $$\begin{align*}EPE(f) = E_XE_{Y|X}([Y-f(X)]^2|X)\end{align*}$$

Me falta la conexión entre estos dos pasos, y no estoy familiarizado con la definición técnica de "acondicionamiento". Si puedo aclarar algo, dímelo. Creo que la mayor parte de mi confusión se debe a que no estoy familiarizado con la notación; estoy seguro de que, si alguien puede explicar esta derivación en inglés sencillo, lo entenderé. ¡Gracias stats.SE!

13voto

WCWedin Puntos 148

Para tu primera confusión, debería ser Expectativa de error al cuadrado, por lo que es $E[(Y-f(x))^2].$

Para la notación de $Pr(dx,dy)$ es igual a $g(x,y)\,dx\,dy$ , donde $g(x,y)$ es el pdf conjunto de x e y. Y $Pr(dx)=f(x)\,dx$ se puede interpretar como la probabilidad de que x esté dentro de un pequeño intervalo de $[x,x+dx]$ es igual al valor pdf en el punto $x$ es decir $f(x)$ veces la longitud del intervalo $dx$ .

La ecuación sobre el EPE proviene del teorema $E(E(Y|X))=E(Y)$ para dos variables aleatorias cualesquiera $X$ y $Y$ . Esto se puede demostrar utilizando la distribución condicional. La expectativa condicional es la expectativa calculada utilizando la distribución condicional. La distribución condicional $Y|X$ significa la probabilidad de $Y$ después de saber algo sobre $X$ .

En nuestro caso, supongamos que denotamos el error al cuadrado como una función $L(x,y)=(y-f(x))^2$ El EPE está calculando

$$\begin{equation}\begin{split}E(L(x,y))&=\int\int L(x,y)g(x,y)dx\,dy \\ &=\int\bigg[\int L(x,y)g(y|x)g(x)dy\bigg]dx \\ &=\int\bigg[\int L(x,y)g(y|x)dy\bigg]g(x)dx \\ &=\int\bigg[E_{Y|X} (L(x,y)\bigg]g(x)dx \\ &=E_X(E_{Y|X} (L(x,y)))\end{split}\end{equation}$$

El resultado de lo anterior se corresponde con el resultado que has enumerado. Espero que esto pueda ayudarte un poco.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X