Nos centraremos en un escenario típico de regresión. Sea $Y \sim \mathcal{N}_n(X \beta, \sigma^2 I)$ sea la respuesta en un modelo de regresión con covariables $X \in \mathbb{R}^{n \times p}$ . Sea $\hat\beta = (X^T X)^{-1} X^T Y$ sean los coeficientes OLS y $\hat\sigma^2$ sea el habitual imparcialidad estimación de la varianza del error.
Dejemos que $Y^*$ sea un sorteo i.i.d. de la respuesta y $\epsilon = Y^* - X\beta$ . Entonces el error de predicción:
\begin{align} E[ \|Y^* - X \hat\beta\|^2 ] & = E[ \|X \beta + \epsilon - X \hat\beta\|^2 ] \\ & = E[ \|X \beta - X \hat\beta\|^2 ] + E [ \|\epsilon\|^2 ] \\ & = E[ \|X \beta - X \hat\beta\|^2 ] + \sigma^2 n \\ & = E[ \|X \beta - X \hat\beta\|^2 + \hat\sigma^2 n] \\ & = E\left[ \left\{ \|Y - X \hat\beta \|^2 + (2p - n) \hat\sigma^2 \right\} + \hat\sigma^2 n \right] \\ & = E\left[ \|Y - X \hat\beta \|^2 + 2p \hat\sigma^2 \right] \\ \end{align} donde la penúltima igualdad puede verificarse directamente, pero está relacionada con la estimación insesgada del riesgo de Stein. Por tanto, el error de predicción se estima de forma insesgada mediante $$\|Y - X \hat\beta \|^2 + 2p \hat\sigma^2,$$ que es proporcional al AIC.
Bien, teniendo esto en cuenta, ¿cómo debemos interpretar el AIC? Debido a esta identidad, todo lo que tenemos que hacer es interpretar $\|Y^* - X \hat\beta\|^2$ . El AIC nos habla del error en los nuevos datos $Y^*$ utilizando nuestras predicciones de datos de entrenamiento $X \hat\beta$ .
Omitiré la identidad matemática para el BIC, debido a las limitaciones de tiempo. Si la memoria no me falla, la identidad deseada implica la divergencia KL. Con estas identidades y sus interpretaciones, la respuesta a tus preguntas es inmediata: Q1: Sí, Q2: Sí.