Desde $R^2=1-SSE_{Error}/SSE_{Total}$ :
$R^2 \uparrow \implies (\bf{Y}-\bf{X \beta})'(\bf{Y}-\bf{X \beta}) \downarrow$
La log-verosimilitud para un modelo dado, suponiendo errores gaussianos es (omitiendo constantes): $-\frac{n}{2}\ln{\hat{\sigma}^2}+{\frac{1}{2\hat{\sigma}^2}(Y-X\beta)'(Y-X\beta)}$
Pero como $\hat{\sigma}^2=\frac{(\bf{Y}-\bf{X \beta})'(\bf{Y}-\bf{X \beta})}{n}$ la log-verosimilitud se reduce a:
$-\frac{1}{2} (\bf{Y}-\bf{X \beta})'(\bf{Y}-\bf{X \beta})$
Por lo tanto, la probabilidad logarítmica aumenta a medida que $(\bf{Y}-\bf{X \beta})'(\bf{Y}-\bf{X \beta}) \downarrow$ es decir, el AIC disminuye.
Resumiendo, en el caso normal, para un número igual de predictores, sí, los dos son equivalentes. En otras palabras, el modelo que explica la mayor variabilidad ( $R^2$ ) debería corresponder al modelo que mejor se ajusta (tiene la mayor probabilidad, o el AIC más bajo).
No lo he comprobado, pero me imagino que se puede elegir una distribución distinta de la gaussiana para los errores que te llevaría a un contraejemplo.