11 votos

Fórmula de AIC en la introducción al aprendizaje estadístico

Estoy un poco confundido por una fórmula presentada en Hastie "Introducción a la Estadística de Aprendizaje". En el Capítulo 6, página 212 (sexta impresión, disponible aquí), se establece que:

$AIC = \frac{RSS}{n\hat\sigma^2} + \frac{2d}{n} $

Para modelos lineales con ruido Gaussiano, $d$ el número de predictores y $\hat\sigma$ la estimación de la varianza de error. Sin embargo,

$\hat\sigma^2 = \frac{RSS}{(n-2)}$

Que se indica en el Capítulo 3, página 66.

Lo cual implica:

$AIC = \frac{(n-2)}{n} + \frac{2d}{n} $

Que no puede ser a la derecha. Alguien puede señalar lo estoy haciendo de forma incorrecta?

5voto

usεr11852 Puntos 5514

Por desgracia, este será un lugar insatisfactoria respuesta...

Primero de todo, por lo general por el AIC cálculo se utilizará el Máximo de Probabilidad de la estimación de $\sigma^2$ de los que serían sesgados. Por lo que se reduciría a $\sigma^2 = \frac{RSS}{n}$ y, finalmente, el cálculo que se hace es reducir a la $1+2\frac{d}{n}$. Segundo me remito al artículo de Wikipedia sobre la AIC, en particular, en el equivariance sección casos. Como se puede ver no es claro que la mayoría de las derivaciones omitir una constante $C$. Esta constante es irrelevante para la comparación de los modelos de efectos por lo que se omite. Es algo común ver a los contradictorios resultados de la AIC porque precisamente de ese tema. Por ejemplo, Johnson Y Wichern de Aplicar el Análisis Estadístico Multivariado, 6th edition dar AIC como: $n \log(\frac{RSS}{N}) + 2d$ (Chapt. 7.6), que claramente no se puede equiparar a la definición de James et al. usted está utilizando. Ni el libro es malo per se. Sólo las personas en el uso de las diferentes constantes. En el caso de James et al. libro parece que no aluden a este punto. En otros libros, por ejemplo. Ravishanker y Dey es Un Primer Curso en el Modelo Lineal de la Teoría , esto es aún más profunda a medida que el autor escribe:

\begin{align} AIC(p) &= -2l(y; X, \hat{\beta}_{ML}, \hat{\sigma}_{ML}^2) + 2p \\ &= -N \log(\hat{\sigma}_{ML}^2)/2 - N/2 + 2p \qquad (7.5.10) \end{align}

que curiosamente no puede ser simultáneamente verdaderas. Como Burnham & Anderson (1998) Chapt 2.2 escribir: "En el caso especial de los mínimos cuadrados (LS) estimación con normalmente distribuida errores, y aparte de una constante aditiva arbitraria, AIC puede ser expresada como una función simple de la suma de cuadrados residual."; B&A sugerir el mismo AIC variante que J&W uso. Qué se mete usted es particular, constante (y el hecho de que no estaban usando el ML estimación de los residuos.) Mirando M. Obispo de Reconocimiento de patrones y Aprendizaje de Máquina (2006) me parece aún más contradictorio definición como:

\begin{align} AIC &= l(D|w_{ML}) - M \qquad (1.73) \end{align}

lo cual es gracioso, porque no sólo se omite el multiplicador de la original en papel, pero también va por delante de la caída de los signos para que pueda utilizar AIC basada en la selección como un problema de maximización de...

Yo recomendaría quedarse con la antigua definición de $−2\log(L)+2p$ si quieres hacer derivaciones teóricas. Este es uno de Akaike los estados en su papel original. Todas las otras fórmulas intermedias tienden a ser sucio y/o hacer algunos supuestos implícitos. Si es ningún consuelo, que "no hizo nada malo".

4voto

Gumeo Puntos 1671

Creo que estás confundiendo los dos suma residual de los cuadrados que tiene. Usted tiene un RSS para estimar el $\hat{\sigma}^2$ en la fórmula, este RSS es, en cierto sentido, independiente del número de parámetros, $p$. Esta $\hat{\sigma}^2$ debe ser estimado usando todas las covariables, dándole una línea de base unidad de error. Usted debe llamar a la RSS en la fórmula de la AIC: $\text{RSS}_{p_i}$, lo que significa que se corresponde con el modelo de $i$ $p$ parámetros, (puede haber muchos modelos con $p$ parámetros). Así que la RSS en la fórmula se calcula para un modelo específico, mientras que el RSS para $\hat{\sigma}^2$ es para el modelo completo.

Esto también se observó en la página de antes, donde $\hat{\sigma}^2$ es introducido por $C_p$.

Así que el RSS para la fórmula de la AIC no es indepednent de $p$, se calcula para un determinado modelo. La introducción de $\hat{\sigma}^2$ a todo esto es sólo para tener una línea de base de la unidad para el error, de tal manera que hay una "feria" de la comparación entre el número de parámetros y la reducción en el error. Es necesario comparar el número de parámetros a algo que es escalar w.r.t. la magnitud del error.

Si no escala de la RSS por el error de la línea basal, podría ser que el RSS está cayendo mucho más que el número de variables introducidas y por lo tanto se vuelven más codiciosos en añadir más variables. Si la escala a la unidad, la comparación con el número de parámetros es independiente de la magnitud del error de la línea basal.

Esta no es la forma general para calcular la AIC, pero esencialmente se reduce a algo similar a esto en los casos donde es posible obtener versiones más sencillas de la fórmula.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X