Processing math: 100%

13 votos

Diferentes definiciones de AIC

En la Wikipedia hay una definición de Akaike s Information Criterion (AIC) como AIC=2k2logL donde k es el número de parámetros y logL es la log-verosimilitud del modelo.

Sin embargo, nuestro Econometría notas en un respetado de la universidad estatal de ese AIC=log(ˆσ2)+2kT. Aquí ˆσ2 es la estimación de la varianza de los errores en un ARMA de modelo y de T es el número de observaciones en el conjunto de datos de series de tiempo.

Es la última definición equivalente a la primera, pero simplemente atentos para ARMA de modelos? O es que hay algún tipo de conflicto entre las dos definiciones?

16voto

AdamSane Puntos 1825

La fórmula de la cita de sus notas, que no es exactamente la AIC.

AIC es 2logL+2k.

Aquí te voy a dar un esbozo de un aproximado de derivación que hace lo suficientemente claro lo que está pasando.

Si usted tiene un modelo independiente de la normal de errores con varianza constante,

Lσne12σ2ε2i

que puede ser estimada por máxima verosimilitud como

(ˆσ2)n/2e12nˆσ2/ˆσ2(ˆσ2)n/2e12n(ˆσ2)n/2

(suponiendo que la estimación de σ2 es la estimación ML)

Por lo 2logL+2k=nlogˆσ2+2k (hasta cambio por una constante)

Ahora en el ARMA de modelo, si T es muy grande en comparación apq, entonces la probabilidad se puede aproximar por una Gaussiana marco (por ejemplo, usted puede escribir el ARMA aproximadamente como una más de AR y el estado en suficientes condiciones para escribir que la AR como un modelo de regresión), así que con T en lugar de n:

AICTlogˆσ2+2k

por lo tanto

AIC/Tlogˆσ2+2k/T

Ahora si, simplemente comparando AICs, que la división por T no importa en absoluto, ya que no cambiar el orden de los valores de AIC.

Sin embargo, si usted está utilizando el AIC para algún otro propósito que se basa en el valor real de las diferencias en la AIC (como hacer multimodel inferencia, como se describe por Burnham y Anderson), entonces es importante.

Numerosos textos de econometría parecen utilizar este AIC/T formulario. Curiosamente, algunos de los libros parecen referencia Hurvich y Tsai 1989 o Findley de 1985, de esa forma, pero Hurvich Y Tsai y Findley parecen estar discutiendo la forma original (aunque sólo tengo una indicación indirecta de lo que, tal y como hace ahora, así que tal vez hay algo en Findley).

Aumento podría ser hecho para una variedad de razones, por ejemplo, series de tiempo, especialmente de alta frecuencia de la serie de tiempo, puede ser muy largo y ordinario AICs pueden tener una tendencia a ser difícil de manejar, especialmente si σ2 es muy pequeña. (Hay algunas otras posibles razones, pero desde que yo realmente no sé la razón de que esto fue hecho no voy a empezar a ir hacia abajo por la lista de todas las razones posibles.)

Usted puede mirar a Rob Hyndman la lista de Hechos y falacias de la AIC, - en particular, los artículos 3 a 7. Algunos de esos puntos pueden llevar a ser al menos un poco cauteloso acerca de depender demasiado de la aproximación por la probabilidad Gaussiana, pero tal vez hay una mejor justificación que ofrezco aquí.

No estoy seguro de que hay una buena razón para utilizar esta aproximación a la log-verosimilitud en lugar de la AIC ya que una gran cantidad de series de tiempo de los paquetes de estos días tienden a calcular (/maximizar) la log-verosimilitud para modelos ARMA. Parece que hay poca razón para no usarlo.

2voto

nasib Puntos 1

Creo que esto se basa en la suposición de normalidad de los errores. En econometría, que funcionan con asymptotics, especialmente en el tiempo de la serie de aplicaciones mediante el AIC. Como consecuencia, la normal suposición debe mantener asintóticamente para justificar este (asintótica) modelo de selección de programa.

Recordemos que el logaritmo de la normal de probabilidad es ln(L)=(T/2)ln(2π)(T/2)ln(σ2)(1/2σ2)(xiμ), donde utilizamos E(X)=μ Var(X)=σ2 si los datos provienen de X. En lo que sigue nos abandono el primer término, como la observada de la muestra x1,...,xT no le afecta.

Utilice simplemente el más general (primera) de la fórmula y el enchufe de la L de la normal de probabilidad. El primer término puede ser ignorada (a es una constante, independientemente de regresor elección). El segundo término se convierte en Tln(σ2). El tercer término se convierte en (1/σ2)(Tˆσ2), donde hemos utilizado ˆσ2=T1(xiˉx). De nuevo, el no uso de una muestra finita de corrección se justifica aquí porque este estimador es válido sólo asintóticamente si los errores no son normales. Dado que no conocemos σ2, tenemos que estimar el tercer término como (1/σ2)(Tˆσ2)=(1/ˆσ2)(Tˆσ2) = T.

En resumen, esto significa que tenemos que conseguir para el normal probabilidad de que AIC=2k+Tln(σ2)+1. No hace falta decir, la minimización no es afectada por ignorar la constante 1. El término es ahora simplemente divide por T, ya que no cambia el problema de minimización, a escala de todos los componentes aditivos por T. Esta tierras que en el segundo resultado, porque la AIC AIC/T son idénticos para el propósito de minimización.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X