Su pregunta es similar a este . En general, cualquiera de los criterios de información sólo son comparables para los modelos que utilizan exactamente los mismos datos, ya que son funciones de la probabilidad, y la probabilidad es una función directa de los elementos de los datos. Si se comparan modelos con diferentes agregaciones de parámetros como los modelos jerárquicos o el uso de diferentes familias distributivas pero aplicadas a los mismos puntos de datos, entonces el X Los criterios de CI son una valiosa métrica de comparación.
Sin embargo, en su caso, está cambiando los datos subyacentes utilizados al ajustar el modelo. Tienes un número diferente de puntos de datos cuando miras tus datos a un nivel más fino o más grueso, de ahí la enorme discrepancia en la probabilidad. Por lo tanto, incluso utilizando la misma familia de distribución, sus modelos no son comparables en el X Marco IC. No es lo mismo que los parámetros anidados sobre los mismos datos, se trata de datos diferentes.
Recuerde que todos los X Los criterios de CI tienen como objetivo encontrar modelos que minimicen la Divergencia de Kullback-Leibler de dicho modelo de la distribución de probabilidad subyacente a partir de la "verdadera" distribución de probabilidad subyacente (en el caso del AIC y sus descendientes) o del "mejor" modelo candidato de la distribución de probabilidad subyacente (en el caso del BIC y sus descendientes). Si se trata de dos conjuntos de datos diferentes, ¿cómo se puede comparar la distribución de probabilidad subyacente de un conjunto de datos con otro? Sólo con los mismos datos podemos hablar razonablemente de encontrar el "mejor" candidato para la distribución de probabilidad subyacente de esos datos.