Dado que el principal problema se refiere a la aplicación de una fórmula totalmente general y abstracta a un modelo algo complicado (regresión), abordémoslo examinando un caso concreto simple. La regresión ordinaria es una buena opción porque es bien conocida, bien entendida y sirve como el arquetipo de todos los modelos de regresión más complejos. Pero incluso esto viene en varios "sabores". El que parece más relevante para la predicción es aquel en el que los valores de $p$ El experimentador especifica las variables de los regresores ("independientes"), cuyo objetivo es predecir una respuesta aleatoria cuya distribución depende de los regresores. (Como es habitual, una de estas $p$ los regresores pueden tomar un valor constante).
La notación estándar para esto es que los vectores de los valores regresivos, $x_1, x_2, \ldots , x_n$ están disponibles (como datos). Se han medido con precisión junto con las respuestas correspondientes $y_i$ . Un modelo para estas respuestas es que cada $y_i$ es una realización independiente de una variable normal con varianza $ \sigma ^2$ y significan $x_i \beta $ . (Cada $x_i$ es un $p$ -covector y $ \beta =( \beta_1 , \ldots , \beta_p )^ \prime $ es un $p$ -vector.)
Repasemos: los valores de la $x_i$ son conocidos y no modelados como variables aleatorias; los valores de la $y_i$ se modelan como realizaciones de variables aleatorias (que podríamos rodar en un $n$ -vector $y=(y_1, \ldots ,y_n)^ \prime $ ); y los valores de la parámetro $ \theta =( \beta_0 , \beta_1 , \ldots , \beta_p , \sigma )$ son desconocidos.
Supongamos que el objetivo es predecir una respuesta $y_0 = x_0 \beta $ para un regresor $x_0$ . Un método estándar dice que hay que predecir que será $$ \hat y_0 = x_0 \hat\beta $$ donde $$ \hat\beta = (X^ \prime X)^{-}X^ \prime y \tag {1}$$ y he dejado que $X$ ser la "matriz modelo" obtenida por apilamiento de todos $n$ de los covectores $x_i$ en un $n \times p$ matriz.
Hagamos una pausa por un momento para observar que el modelo y la matriz del modelo $X$ determinar completamente la distribución de $ \hat y_0$ . Esto se debe a que (a) la independencia de la $y_i$ da $y$ un $n$ -variante Distribución normal; b) su media viene dada por $X \beta $ y (c) su matriz de covarianza es $ \sigma ^2$ veces el $n \times n$ matriz de identidades.
Lo que no se especifica rutinariamente es la función de pérdida $L$ . Esto mide el costo para nuestro cliente cuando actúan como si el valor correcto de $y_0$ es $ \hat y_0$ . Porque puede depender de ambos $y_0$ y $ \hat y_0$ está formalmente escrito $L(y_0, \hat y_0)$ . En la notación genérica de la pregunta, el procedimiento para adivinar $ \hat y_0$ de los datos se llama $ \delta $ y " $x$ " se refiere a los datos, que en nuestra aplicación son $X, x_0$ y $y$ . A menudo se toma como la diferencia al cuadrado, $L(u,v)=(u-v)^2$ . En general, las funciones de pérdida bien podrían ser cero cuando $u=v$ (no se puede hacer nada mejor que eso) y aumentan a medida que $u$ y $v$ se separan más.
Si quieres desenvolver las fórmulas anteriores, puedes ampliar esto como
$$L(y_0, \hat y_0) = (y_0- \hat y_0)^2 = (x_0 \beta - x_0 (X^ \prime X)^{-}X^ \prime y)^2.$$
Porque modelamos $y$ como un vector normal multivariante, esta pérdida es una variable aleatoria. Su expectativa se toma con respecto a la distribución de $y$ . La pérdida esperada es la riesgo de nuestro procedimiento. Depende del parámetro (desconocido) $ \theta $ y en el procedimiento mismo. Ya que estamos hablando de un procedimiento definitivo basado en la ecuación $(1)$ realmente es sólo una función de $ \theta $ :
$$R( \theta ) = E(x_0 \beta - x_0 (X^ \prime X)^{-}X^ \prime y)^2.$$
Ya que el lado derecho es una variable aleatoria cuya distribución está completamente determinada por $ \theta $ todo esto tiene sentido y está bien definido. Incluso podríamos escribirlo explícitamente en términos de $X, x_0$ (todas las constantes especificadas), y $ \theta $ .
Por cierto, para el "error de predicción esperado" al que se hace referencia en la pregunta, donde $L(u,v)=v-u$ es fácil mostrar en este caso que el riesgo es cero.