Cuando el número de observaciones es grande, el Criterio de Información de Akaike (AIC) y el Criterio de Información de Akaike corregido para muestras pequeñas (AICc) se vuelven extremadamente similares porque el AICc converge al AIC. Por lo tanto, no ganamos (o perdemos) casi nada cambiando entre los dos criterios. Sugiero mantener el AICc por coherencia a lo largo de un análisis.
Un poco más de debate: El AIC expresa la información relativa esperada de Kullback-Leibler $I$ entre modelos competidores. Suponiendo que la densidad de nuestro modelo sea $f_M$ y el modelo real es $g$ la información KL puede expresarse como
$$I(g,f_M) = \int g(x) \log(\frac{g(x)}{f_M(x;\theta)})dx$$
Observe que esto se parece mucho a una prueba de cociente de probabilidad; si $f_M$ y $g$ son iguales la relación $\frac{g(x)}{f_M(x;\theta)}$ es igual a 1 por lo que su logaritmo tiende a 0. Podemos reescribir inmediatamente lo anterior como:
$$I(g,f_M) = \int g(x) \log g(x)dx - \int g(x) \log f_M(x;\theta)dx$$
y nos damos cuenta de que los primeros términos son constantes, por lo que sólo nos preocupamos de:
$$ - \int g(x) \log f_M(x;\theta)dx$$
Ahora bien, lo que hizo Akaike fue 1. darse cuenta de que mientras $g$ se desconoce, tenemos observaciones de $g$ en términos de $X_1, X_2, \dots, X_n$ . Así que..:
$$ - \int g(x) \log f_M(x;\theta)dx \approx -\frac{1}{n}\sum_i^n \log(f_M(X_i;\theta))$$
(que es simplemente la log-verosimilitud negativa para el modelo $M$ ) y 2. darse cuenta de que se trata de una estimación sobreajustada del log-likehood, ya que estimamos tanto $f_M$ y $\theta$ a partir de los mismos datos. Sin entrar en más detalles escabrosos, el sesgo es asintóticamente igual a $\frac{p}{n}$ donde $p$ es el número de parámetros estimados por $M$ . Así que en realidad lo que nos importa es:
$$ -\frac{1}{n} \sum_{i=1}^n \log(f_M(X_i;\theta)) + \frac{p}{n}$$ donde se multiplica por $2n$ obtenemos el AIC para el modelo $M$ :
\begin{align} AIC(M) &= -2\sum_{i=1}^n \log(f_M(X_i;\theta)) + 2p \\ &= -2 l + 2p \end{align}
Así que el AIC equivale a menos dos veces la log-verosimilitud maximizada más dos veces el número de parámetros estimados. Hurvich y Tsai Regresión y selección de modelos de series temporales en muestras pequeñas (2001) demostraron además que esta estimación corregida sigue estando sesgada si $n$ no es lo suficientemente grande. Sus términos de corrección son $\frac{2p(p+1)}{n -(p+1)}$ y esto conduce a la fórmula AICc como:
\begin{align} AICc(M) = -2 l + 2p + \frac{2p(p+1)}{n -p -1} \end{align}
Por eso se recomienda el AICc (AIC de segundo orden) cuando el tamaño de la muestra es relativamente bajo; claramente como $\frac{n}{p}$ este término de corrección posterior tiende a 0. Burnham y Anderson en Selección de modelos e inferencia multimodelo (2004) sugieren utilizar AICc cuando la relación entre el tamaño de la muestra $n$ y el número de parámetros $p$ en el mayor modelo candidato es pequeño (<40), pero siendo realistas, cualquier diferencia entre AIC y AICc será insignificante, ya que $n$ se hace grande (por ejemplo, >100). He encontrado que Takezawa Aprendizaje del análisis de regresión mediante simulación (2014) Cap. 5 " Criterio de información de Akaike (AIC) y tercera varianza ", un gran recurso también en la materia.