Por desgracia, este será un lugar insatisfactoria respuesta...
Primero de todo, por lo general por el AIC cálculo se utilizará el Máximo de Probabilidad de la estimación de $\sigma^2$ de los que serían sesgados. Por lo que se reduciría a $\sigma^2 = \frac{RSS}{n}$ y, finalmente, el cálculo que se hace es reducir a la $1+2\frac{d}{n}$. Segundo me remito al artículo de Wikipedia sobre la AIC, en particular, en el equivariance sección casos. Como se puede ver no es claro que la mayoría de las derivaciones omitir una constante $C$. Esta constante es irrelevante para la comparación de los modelos de efectos por lo que se omite. Es algo común ver a los contradictorios resultados de la AIC porque precisamente de ese tema. Por ejemplo, Johnson Y Wichern de Aplicar el Análisis Estadístico Multivariado, 6th edition dar AIC como: $n \log(\frac{RSS}{N}) + 2d$ (Chapt. 7.6), que claramente no se puede equiparar a la definición de James et al. usted está utilizando. Ni el libro es malo per se. Sólo las personas en el uso de las diferentes constantes. En el caso de James et al. libro parece que no aluden a este punto. En otros libros, por ejemplo. Ravishanker y Dey es Un Primer Curso en el Modelo Lineal de la Teoría , esto es aún más profunda a medida que el autor escribe:
\begin{align}
AIC(p) &= -2l(y; X, \hat{\beta}_{ML}, \hat{\sigma}_{ML}^2) + 2p \\
&= -N \log(\hat{\sigma}_{ML}^2)/2 - N/2 + 2p \qquad (7.5.10)
\end{align}
que curiosamente no puede ser simultáneamente verdaderas. Como Burnham & Anderson (1998) Chapt 2.2 escribir: "En el caso especial de los mínimos cuadrados (LS) estimación con
normalmente distribuida errores, y aparte de una constante aditiva arbitraria, AIC puede ser expresada como una función simple de la suma de cuadrados residual."; B&A sugerir el mismo AIC variante que J&W uso. Qué se mete usted es particular, constante (y el hecho de que no estaban usando el ML estimación de los residuos.) Mirando M. Obispo de Reconocimiento de patrones y Aprendizaje de Máquina (2006) me parece aún más contradictorio definición como:
\begin{align}
AIC &= l(D|w_{ML}) - M \qquad (1.73)
\end{align}
lo cual es gracioso, porque no sólo se omite el multiplicador de la original en papel, pero también va por delante de la caída de los signos para que pueda utilizar AIC basada en la selección como un problema de maximización de...
Yo recomendaría quedarse con la antigua definición de $−2\log(L)+2p$ si quieres hacer derivaciones teóricas. Este es uno de Akaike los estados en su papel original. Todas las otras fórmulas intermedias tienden a ser sucio y/o hacer algunos supuestos implícitos. Si es ningún consuelo, que "no hizo nada malo".