La prueba LR (razón de verosimilitud) en realidad está probando la hipótesis de que un subconjunto especificado de los parámetros es igual a algunos valores preespecificados. En el caso de la selección de modelos, generalmente (pero no siempre) eso significa que algunos de los parámetros son iguales a cero. Si los modelos están anidados, los parámetros del modelo mayor que no están en el modelo menor son los que se prueban, con valores especificados implícitamente por su exclusión del modelo menor. Si los modelos no están anidados, ya no está probando esto, porque AMBOS modelos tienen parámetros que no están en el otro modelo, por lo que la estadística de prueba LR no tiene la asintótica $\chi^2$ distribución que (normalmente) hace en el caso anidado.
En cambio, el AIC no se utiliza para pruebas formales. Se utiliza para comparaciones informales de modelos con distinto número de parámetros. El término de penalización en la expresión del AIC es lo que permite esta comparación. Pero no se hacen suposiciones sobre la forma funcional de la distribución asintótica de las diferencias entre el AIC de dos modelos no anidados cuando se hace la comparación de modelos, y la diferencia entre dos AIC no se trata como un estadístico de prueba.
Añadiré que hay cierto desacuerdo sobre el uso del AIC con modelos no anidados, ya que la teoría está elaborada para modelos anidados. De ahí mi énfasis en "no... formal" y "no... estadístico de prueba". Yo lo utilizo para modelos no anidados, pero no de manera rígida, sino más bien como un dato importante, pero no el único, en el proceso de construcción del modelo.