El AIC se define como
$$\text{AIC} = 2k - 2\ln(L)$$
donde $k$ denota el número de parámetros y $L$ denota el valor maximizado de la función de verosimilitud.
Para la comparación de modelos, se prefiere el modelo con la puntuación AIC más baja. Los valores absolutos de las puntuaciones AIC no importan, ya que estas puntuaciones pueden ser negativas o positivas.
En tu ejemplo, se prefiere el modelo con $\text{AIC} = -237.847$ sobre el modelo con $\text{AIC} = -201.928$.
No debes preocuparte por los valores absolutos y el signo de las puntuaciones AIC al comparar modelos.
Una buena referencia es Model Selection and Multi-model Inference: A Practical Information-theoretic Approach (Burnham y Anderson, 2004), particularmente en la página 62 (sección 2.2):
En la aplicación, se calcula el AIC para cada uno de los modelos candidatos y se selecciona el modelo con el valor más pequeño de AIC.
así como en la página 63:
Por lo general, el AIC es positivo; sin embargo, puede ser desplazado por cualquier constante aditiva, y algunos desplazamientos pueden resultar en valores negativos de AIC. [...] No es el tamaño absoluto del valor del AIC, son los valores relativos sobre el conjunto de modelos considerados, y particularmente las diferencias entre los valores de AIC, lo que es importante.
10 votos
No hay nada especial sobre el AIC negativo. Más pequeño (es decir, más negativo, para valores negativos) es mejor.
11 votos
¿Cuál lugar en el mundo es el más frío hoy? El Polo Sur, a -40 grados C, o Atlanta, GA, a -1 grados C "porque está más cerca de 0"? Esta analogía no es jocosa: al igual que los grados Celsius, AIC es una escala aditiva con un cero arbitrario.