Yo diría que al menos cuando se habla de modelos lineales (como AR modelos), ajustado $R^2$ y el cie no son diferentes.
Considerar la cuestión de si $X_2$ deben ser incluidos en
$$
y=\underset {n\times K_1)}{X_1}\beta_1+\underset {n\times K_2)}{X_2}\beta_2+\epsilon
$$
Esto es equivalente a la comparación de los modelos
\begin{eqnarray*}
\mathcal{M}_1&:&y=X_1\beta_1+u\\
\mathcal{M}_2&:&y=X_1\beta_1+X_2\beta_2+u,
\end{eqnarray*}
donde $E(u|X_1,X_2)=0$. Decimos que $\mathcal{M}_2$ es el verdadero modelo de la si $\beta_2\neq0$.
Observe que $\mathcal{M}_1\subset\mathcal{M}_2$. Los modelos son por lo tanto anidados.
Un modelo de procedimiento de selección de $\widehat{\mathcal{M}}$ es dependiente de los datos de la regla de que selecciona el más plausible de varios modelos.
Decimos
$\widehat{\mathcal{M}}$ es consistente si
\begin{eqnarray*}
\lim_{n\rightarrow\infty}P\bigl(\widehat{\mathcal{M}}=\mathcal{M}_1|\mathcal{M}_1\bigr)&=&1\\
\lim_{n\rightarrow\infty}P\bigl(\widehat{\mathcal{M}}=\mathcal{M}_2|\mathcal{M}_2\bigr)&=&1
\end{eqnarray*}
Considere la posibilidad de ajustar $R^2$. Es decir, elija $\mathcal{M}_1$ si $\bar{R}^2_1>\bar{R}^2_2$. Como $\bar{R}^2$ es monótonamente decreciente en $s^2$, este procedimiento es equivalente a minimizar $s^2$. A su vez, esto es equivalente a minimizar $\log(s^2)$. Por lo suficientemente grande $n$, este último puede ser escrito como
\begin{eqnarray*}
\log(s^2)&=&\log\left(\widehat{\sigma}^2\frac{n}{n-K}\right) \\
&=&\log(\widehat{\sigma}^2)+\log\left(1+\frac{K}{n-K}\right) \\
&\approx&\log(\widehat{\sigma}^2)+\frac{K}{n-K} \\
&\approx&\log(\widehat{\sigma}^2)+\frac{K}{n},
\end{eqnarray*}
donde $\widehat{\sigma}^2$ es el ML estimador de la varianza de error. Modelo de selección basado en el $\bar{R}^2$ por lo tanto es asintóticamente equivalente a elegir el modelo con el menor
$\log(\widehat{\sigma}^2)+K/n$.
Este procedimiento es inconsistente.
La proposición:
$$\lim_{n\rightarrow\infty}P\bigl(\bar{R}^2_1>\bar{R}^2_2|\mathcal{M}_1\bigr)<1$$
Prueba:
\begin{eqnarray*}
P\bigl(\bar{R}^2_1>\bar{R}^2_2|\mathcal{M}_1\bigr)&\approx&P\bigl(\log(s^2_1)<\log(s^2_2)|\mathcal{M}_1\bigr) \\
&=&P\bigl(n\log(s^2_1)<n\log(s^2_2)|\mathcal{M}_1\bigr) \\
&\approx&P(n\log(\widehat{\sigma}^2_1)+K_1<n\log(\widehat{\sigma}^2_2)+K_1+K_2|\mathcal{M}_1) \\
&=&P(n[\log(\widehat{\sigma}^2_1)-\log(\widehat{\sigma}^2_2)]<K_2|\mathcal{M}_1) \\
&\rightarrow&P(\chi^2_{K_2}<K_2) \\
&<&1,
\end{eqnarray*}
donde la 2ª a la última línea de la siguiente manera porque la estadística es el LR de la estadística en la regresión lineal caso que sigue un asintótica $\chi^2_{K_2}$ nula distribución.
QED
Ahora considere la posibilidad de Akaike criterio del
$$
AIC=\log(\widehat{\sigma}^2)+2\frac{K}{n}
$$
Por lo tanto, la AIC también se comercializa fuera de la reducción de la SSR implícita por regresores adicionales en contra de la pena "término", que apunta en la dirección contraria. Por lo tanto, escoja $\mathcal{M}_1$ si
$AIC_1<AIC_2$, de lo contrario seleccione $\mathcal{M}_2$.
Se puede observar que el $AIC$ es también incompatible continuando la anterior prueba en la línea de tres con $P(n\log(\widehat{\sigma}^2_1)+2K_1<n\log(\widehat{\sigma}^2_2)+2(K_1+K_2)|\mathcal{M}_1)$. El ajustado $R^2$ e las $AIC$, con lo que la elección de la "gran" modelo de $\mathcal{M}_2$ con probabilidad positiva, incluso si $\mathcal{M}_1$ es el verdadero modelo.
Como el castigo por la complejidad en la AIC es un poco más grande que el de ajustar $R^2$, puede ser menos propenso a overselect, aunque. Y tiene otras buenas propiedades (minimización de la divergencia KL para el modelo verdadero, si no que es en el conjunto de modelos considerados) que no se mencione en mi post.