7 votos

Es el criterio de información de Akaike inversamente proporcional a la estadística de chi-cuadrado?

Estoy en el proceso de calcular el criterio de información akaike (AIC) para un conjunto de 15 modelos anidados. Datos generada a partir de la 5ª modelo y utilizadas en la estimación de parámetros para todos los modelos. Este tipo de datos es un curso de tiempo de datos a partir de un conjunto de cursos a distancia que consiste en 4 variables a lo largo de dos diferentes condiciones iniciales. Por lo tanto, $2*4*31=248$ observaciones. Mi tarea es la de inferir que los datos fueron generados a partir de la 5ª modelo de uso de la AIC. La AIC forma que estoy usando es:

$$-N*ln[(RSS/N)]+2k+[(2k(k+1))/(N-k-1)]$$ donde:

$N$: número de observaciones (248 en mi caso)

$k$: número de parámetros estimados plus 1 (ya que el error es un parámetro al parecer).

Aquí están mis cálculos son en la tabla siguiente (copiado de Matlab). Como puedes ver, la estimación identificado el 5 de modelo en la serie como la 2ª mejor opción (por la forma de minimizar la suma de los cuadrados). Luego procedí a calcular cada uno de los AIC términos individual, entonces la suma al final.

Lo que observo es que el modelo que fue 1er clasificado por el chi cuadrado se ocupa el último lugar en AIC. Además, parece existir una relación inversa entre el chi cuadrado y el cie en la que el segundo clasificado el mejor modelo de chi cuadrado es el segundo peor por la AIC, y así sucesivamente.

Mi pregunta es: tiene una relación de esta naturaleza se ha observado antes? Si es así donde y si no (que tengo la sospecha de ser el caso) ¿qué estoy haciendo mal?

chisq      chisq_rank num_parameters  1st_term  2nd_term   3rd_term    AIC (sum)
1.60175856506195    9   8   1250.49700109714    16  0.602510460251046   1267.09951155739    7
2.22401333127733    15  8   1169.10061312778    16  0.602510460251046   1185.70312358803    1
2.21538124402173    13  10  1170.06505109382    20  0.928270042194093   1190.99332113601    3
1.50205042169781    8   9   1266.43621067286    18  0.756302521008403   1285.19251319387    8
0.593373856737609   2   9   1496.76912499725    18  0.756302521008403   1515.52542751826    14
1.26848304390402    4   10  1308.35053928393    20  0.928270042194093   1329.27880932612    12
0.593367670012715   1   10  1496.77171074611    20  0.928270042194093   1517.69998078830    15
2.22098980957599    14  8   1169.43799579043    16  0.602510460251046   1186.04050625068    2
1.45989299143802    6   8   1273.49627045328    16  0.602510460251046   1290.09878091353    10
2.01998433198069    10  9   1192.96406982433    18  0.756302521008403   1211.72037234534    6
2.02269351982039    11  9   1192.63167693553    18  0.756302521008403   1211.38797945654    5
1.04998188601805    3   8   1355.23464672182    16  0.602510460251046   1371.83715718207    13
2.03684592732117    12  9   1190.90250971104    18  0.756302521008403   1209.65881223205    4
1.50205035842807    7   9   1266.43622111918    18  0.756302521008403   1285.19252364019    9
1.30853041112627    5   9   1300.64196743421    18  0.756302521008403   1319.39826995522    11

1voto

EdM Puntos 5716

Comprobar la fórmula de la AIC en contra de la Wikipedia AIC página, igualdad de varianzas caso. El signo negativo antes de su primer término parece estar en un error. (Sección de la página de Wikipedia, se omite la corrección de la AIC a la AICc, el tercer término de la ecuación, la cual se explica más arriba en la página.)

Puede haber algo de confusión porque el calculo de la AIC valores aparecerán a ser negativa, lo que parece estar mal. Eso es porque la fórmula que desea utilizar omite una constante, como se explica en la página de la Wikipedia. Para las comparaciones de modelos en el mismo conjunto de datos de la constante puede ser ignorado y que todavía la base de su selección en el nivel más bajo calculado AIC.

También, tenga en cuenta que el tuyo no son modelos anidados en el sentido usual de la palabra, ya que muchos tienen el mismo número de parámetros. Generalmente el "anidada" terminología se refiere a un conjunto de modelos con un gran conjunto de variables predictoras en el primer modelo, el segundo modelo que contenga sólo un subconjunto de los predictores, la tercera contiene un subconjunto de los predictores en el segundo modelo, y así sucesivamente estrictamente en la disminución del número de predictores. Así que no puede haber 2 de un conjunto de modelos anidados de tener el mismo número de predictores. Hay cierta controversia sobre la validez de la AIC para los no-modelos anidados, como se señaló en esta Validado por Cruz de la página.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X