No se compara el valores absolutos de dos AIC (que pueden ser como $\sim 100$ sino también $\sim 1000000$ ), pero considera que su diferencia : $$\Delta_i=AIC_i-AIC_{\rm min},$$ donde $AIC_i$ es el AIC del $i$ -ésimo modelo, y $AIC_{\rm min}$ es el AIC más bajo que se obtiene entre el conjunto de modelos examinados (es decir, el modelo preferido). La regla empírica, esbozada por ejemplo en Burnham y Anderson 2004 es:
- si $\Delta_i<2$ entonces hay un apoyo sustancial a la $i$ -ésimo modelo (o las pruebas en su contra sólo merecen una mención), y la proposición de que se trata de una descripción adecuada es altamente probable;
- si $2<\Delta_i<4$ entonces existe un fuerte apoyo a la $i$ -enésimo modelo;
- si $4<\Delta_i<7$ entonces hay mucho menos apoyo para el $i$ -enésimo modelo;
- modelos con $\Delta_i>10$ no tienen prácticamente ningún apoyo.
En cuanto al 0,7% mencionado en la pregunta, considere dos situaciones:
- $AIC_1=AIC_{\rm min}=100$ y $AIC_2$ es mayor en un 0,7%: $AIC_2=100.7$ . Entonces $\Delta_2=0.7<2$ por lo que no hay diferencias sustanciales entre los modelos.
- $AIC_1=AIC_{\rm min}=100000$ y $AIC_2$ es mayor en un 0,7%: $AIC_2=100700$ . Entonces $\Delta_2=700\gg 10$ por lo que no hay soporte para el modelo 2.
Por lo tanto, decir que la diferencia entre los AIC es del 0,7% no aporta cualquier información.
El valor AIC contiene constantes de escala procedentes de la log-verosimilitud $\mathcal{L}$ y así $\Delta_i$ están libres de tales constantes. En puede considerar $\Delta_i = AIC_i − AIC_{\rm min}$ una transformación de reescalado que obliga al mejor modelo a tener $AIC_{\rm min} := 0$ .
La formulación del AIC penaliza el uso de un número excesivo de parámetros, por lo que desincentiva el sobreajuste. Prefiere modelos con menos parámetros, siempre que los otros no proporcionen un ajuste sustancialmente mejor. El AIC intenta seleccionar un modelo (entre los examinados) que describa lo más adecuadamente posible la realidad (en la forma de los datos examinados). Esto significa que, de hecho, nunca se considera que el modelo sea una descripción real de los datos. Tenga en cuenta que el AIC le informa de qué modelo describe los datos mejor, no da interpretación .
Personalmente Yo diría que si tienes un modelo simple y uno complicado que tiene un AIC mucho más bajo, entonces el modelo simple no es lo suficientemente bueno. Si el modelo más complejo es realmente mucho más complicado pero el $\Delta_i$ no es enorme (tal vez $\Delta_i<2$ tal vez $\Delta_i<5$ - depende de la situación concreta) me quedaría con el modelo más sencillo si realmente es más fácil trabajar con él.
Además, se puede atribuir una probabilidad al $i$ -ésimo modelo a través de
$$p_i=\exp\left(\frac{-\Delta_i}{2}\right),$$
que proporciona un relativa (en comparación con $AIC_{\rm min}$ ) probabilidad de que el $i$ -ésimo modelo minimiza el AIC. Por ejemplo, $\Delta_i=1.5$ corresponde a $p_i=0.47$ (bastante alto), y $\Delta_i=15$ corresponde a $p_i=0.0005$ (bastante bajo). El primer caso significa que hay un 47% de probabilidades de que el $i$ -ésimo modelo podría de hecho ser una descripción mejor que el modelo que produjo $AIC_{\rm min}$ y en el segundo caso esta probabilidad es sólo del 0,05%.
Por último, respecto a la fórmula del AIC:
$$AIC=2k-2\mathcal{L},$$
es importante señalar que cuando dos modelos con similares $\mathcal{L}$ se consideran los $\Delta_i$ depende únicamente del número de parámetros debido a la $2k$ término. Por lo tanto, cuando $\frac{\Delta_i}{2\Delta k} < 1$ la mejora relativa se debe a la mejora real del ajuste, no sólo al aumento del número de parámetros.
TL;DR
- Es una mala razón; utilice la diferencia entre los valores absolutos de los AIC.
- El porcentaje no dice nada.
- No es posible responder a esta pregunta debido a la falta de información sobre los modelos, los datos y lo que hace resultados diferentes media.