En la sección 7.2 de Hastie, Tibshirani y Friedman (2013) Los elementos del aprendizaje estadístico tenemos la variable objetivo $Y$ y un modelo de predicción $\hat{f}(X)$ que se ha estimado a partir de un conjunto de entrenamiento $\mathcal{T} = \{Y_1, ..., Y_N, X_1, ..., X_N\}$ . La pérdida se denomina $L(Y, \hat{f}(X))$ y, a continuación, los autores definen el error de la prueba: \begin{equation} \mathrm{Err}_{\mathcal{T}} = \mathbb{E} \left[ L(Y, \hat{f}(X)) | \mathcal{T} \right] , \end{equation} y el error esperado de la prueba: \begin{equation} \mathrm{Err} = \mathbb{E} (\mathrm{Err}_{\mathcal{T}}) . \end{equation} Los autores afirman a continuación:
Estimación de $\mathrm{Err}_{\mathcal{T}}$ será nuestro objetivo...
Mi pregunta : ¿Por qué nos preocupamos más por $\mathrm{Err}_{\mathcal{T}}$ que $\mathrm{Err}$ ?
Habría pensado que la cantidad que mide la pérdida esperada, independientemente de la muestra de entrenamiento utilizada sería más interesante que la pérdida esperada que condiciona una muestra de entrenamiento específica. ¿Qué se me escapa?
Además, he leído esta respuesta aquí que (basándome en mi lectura posiblemente incorrecta) parece estar de acuerdo conmigo en que $\mathrm{Err}$ es la cantidad de interés, pero sugiere que a menudo hablamos de $\mathrm{Err}_{\mathcal{T}}$ porque puede estimarse mediante validación cruzada. Pero esto parece contradecir la Sección 7.12 del libro de texto, que (de nuevo por mi lectura posiblemente incorrecta) parece sugerir que la validación cruzada proporciona una mejor estimación de $\mathrm{Err}$ que $\mathrm{Err}_{\mathcal{T}}$ .
Estoy dando vueltas en círculos en este caso, así que pensé que iba a preguntar aquí.