Acabo de recibir una copia de Los elementos del aprendizaje estadístico por Hastie, Tibshirani y Friedman. En el capítulo 2 (Overview of Supervised Learning) sección 4 (Statistical Decision Theory), da una derivación de la función de regresión.
Dejemos que $X \in \mathbb{R}^p$ denota un vector de entrada aleatorio de valor real, y $Y\in\mathbb{R}$ una variable aleatoria de salida de valor real, con una distribución conjunta $Pr(X,Y)$ . Buscamos una función $f(X)$ para predecir $Y$ valores dados de la entrada $X$ . Esta teoría requiere una función de pérdida $L(Y,f(X))$ para penalizar los errores de predicción, y la más común y conveniente es la pérdida de error al cuadrado: $L(Y,f(X))=(Y f(X))^2$ . Esto nos lleva a un criterio para elegir $f$ ,
$$\begin{align*} EPE(f) &= E(Y-f(X))^2 \\ &= \int [y - f(x)]^2Pr(dx, dy)\end{align*}$$ el error de predicción esperado (al cuadrado).
Entiendo perfectamente el montaje y la motivación. Mi primera confusión es: ¿se refiere a $E[(Y - f(x))]^2$ o $E[(Y - f(x))^2]$ ? En segundo lugar, nunca he visto la notación $Pr(dx,dy)$ . ¿Puede alguien que lo haya hecho explicarme su significado? ¿Es sólo que $Pr(dx) = Pr(x)dx$ ? Por desgracia, mi confusión no termina aquí,
Acondicionando el $X$ podemos escribir $EPE$ como $$\begin{align*}EPE(f) = E_XE_{Y|X}([Y-f(X)]^2|X)\end{align*}$$
Me falta la conexión entre estos dos pasos, y no estoy familiarizado con la definición técnica de "acondicionamiento". Si puedo aclarar algo, dímelo. Creo que la mayor parte de mi confusión se debe a que no estoy familiarizado con la notación; estoy seguro de que, si alguien puede explicar esta derivación en inglés sencillo, lo entenderé. ¡Gracias stats.SE!