5 votos

Breves caracterizaciones de AIC y BIC: ¿son útiles?

He encontrado las siguientes caracterizaciones de una sola frase de AIC y BIC en una nota de clase:

  1. El AIC estima el grado en que la precisión predictiva del modelo se generalizará a los nuevos datos.

  2. El BIC evalúa la "información perdida" al sustituir los datos por un modelo de los mismos.

Evidentemente, no son caracterizaciones rigurosas y no pretenden serlo. Pero me pregunto si captan la esencia de AIC y BIC y ayudan a discriminar entre ellos en absoluto.

Q1: ¿Sustitución de AIC con BIC en la primera caracterización anterior la hacen menos válida / menos útil?
Q2: ¿Sustitución de BIC con AIC en la segunda caracterización anterior la hacen menos válida / menos útil?

1voto

user551504 Puntos 61

Nos centraremos en un escenario típico de regresión. Sea $Y \sim \mathcal{N}_n(X \beta, \sigma^2 I)$ sea la respuesta en un modelo de regresión con covariables $X \in \mathbb{R}^{n \times p}$ . Sea $\hat\beta = (X^T X)^{-1} X^T Y$ sean los coeficientes OLS y $\hat\sigma^2$ sea el habitual imparcialidad estimación de la varianza del error.

Dejemos que $Y^*$ sea un sorteo i.i.d. de la respuesta y $\epsilon = Y^* - X\beta$ . Entonces el error de predicción:

\begin{align} E[ \|Y^* - X \hat\beta\|^2 ] & = E[ \|X \beta + \epsilon - X \hat\beta\|^2 ] \\ & = E[ \|X \beta - X \hat\beta\|^2 ] + E [ \|\epsilon\|^2 ] \\ & = E[ \|X \beta - X \hat\beta\|^2 ] + \sigma^2 n \\ & = E[ \|X \beta - X \hat\beta\|^2 + \hat\sigma^2 n] \\ & = E\left[ \left\{ \|Y - X \hat\beta \|^2 + (2p - n) \hat\sigma^2 \right\} + \hat\sigma^2 n \right] \\ & = E\left[ \|Y - X \hat\beta \|^2 + 2p \hat\sigma^2 \right] \\ \end{align} donde la penúltima igualdad puede verificarse directamente, pero está relacionada con la estimación insesgada del riesgo de Stein. Por tanto, el error de predicción se estima de forma insesgada mediante $$\|Y - X \hat\beta \|^2 + 2p \hat\sigma^2,$$ que es proporcional al AIC.

Bien, teniendo esto en cuenta, ¿cómo debemos interpretar el AIC? Debido a esta identidad, todo lo que tenemos que hacer es interpretar $\|Y^* - X \hat\beta\|^2$ . El AIC nos habla del error en los nuevos datos $Y^*$ utilizando nuestras predicciones de datos de entrenamiento $X \hat\beta$ .

Omitiré la identidad matemática para el BIC, debido a las limitaciones de tiempo. Si la memoria no me falla, la identidad deseada implica la divergencia KL. Con estas identidades y sus interpretaciones, la respuesta a tus preguntas es inmediata: Q1: Sí, Q2: Sí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X