12 votos

¿Por qué criterio de información (no ajustado $R^2$) se utilizan para seleccionar orden de retraso correspondiente en el modelo de serie de tiempo?

En los modelos de serie de tiempo, como ARMA-GARCH, para seleccionar el apropiado lag o el fin de la modelo diferente criterio de información, como AIC, BIC, SIC, etc, se utilizan.

Mi pregunta es muy sencilla, ¿por qué no usamos ajustado $R^2$ a elegir el modelo adecuado? Podemos seleccionar el modelo que conducen a un mayor valor ajustado $R^2$. Debido a que ambos ajustado $R^2$ y el criterio de información penalizar adicional número de regresores en el modelo, donde el ex penalizar $R^2$ y más tarde penalizar probabilidad valor.

18voto

Christoph Hanck Puntos 4143

Yo diría que al menos cuando se habla de modelos lineales (como AR modelos), ajustado $R^2$ y el cie no son diferentes.

Considerar la cuestión de si $X_2$ deben ser incluidos en $$ y=\underset {n\times K_1)}{X_1}\beta_1+\underset {n\times K_2)}{X_2}\beta_2+\epsilon $$ Esto es equivalente a la comparación de los modelos \begin{eqnarray*} \mathcal{M}_1&:&y=X_1\beta_1+u\\ \mathcal{M}_2&:&y=X_1\beta_1+X_2\beta_2+u, \end{eqnarray*} donde $E(u|X_1,X_2)=0$. Decimos que $\mathcal{M}_2$ es el verdadero modelo de la si $\beta_2\neq0$. Observe que $\mathcal{M}_1\subset\mathcal{M}_2$. Los modelos son por lo tanto anidados. Un modelo de procedimiento de selección de $\widehat{\mathcal{M}}$ es dependiente de los datos de la regla de que selecciona el más plausible de varios modelos.

Decimos $\widehat{\mathcal{M}}$ es consistente si \begin{eqnarray*} \lim_{n\rightarrow\infty}P\bigl(\widehat{\mathcal{M}}=\mathcal{M}_1|\mathcal{M}_1\bigr)&=&1\\ \lim_{n\rightarrow\infty}P\bigl(\widehat{\mathcal{M}}=\mathcal{M}_2|\mathcal{M}_2\bigr)&=&1 \end{eqnarray*}

Considere la posibilidad de ajustar $R^2$. Es decir, elija $\mathcal{M}_1$ si $\bar{R}^2_1>\bar{R}^2_2$. Como $\bar{R}^2$ es monótonamente decreciente en $s^2$, este procedimiento es equivalente a minimizar $s^2$. A su vez, esto es equivalente a minimizar $\log(s^2)$. Por lo suficientemente grande $n$, este último puede ser escrito como \begin{eqnarray*} \log(s^2)&=&\log\left(\widehat{\sigma}^2\frac{n}{n-K}\right) \\ &=&\log(\widehat{\sigma}^2)+\log\left(1+\frac{K}{n-K}\right) \\ &\approx&\log(\widehat{\sigma}^2)+\frac{K}{n-K} \\ &\approx&\log(\widehat{\sigma}^2)+\frac{K}{n}, \end{eqnarray*} donde $\widehat{\sigma}^2$ es el ML estimador de la varianza de error. Modelo de selección basado en el $\bar{R}^2$ por lo tanto es asintóticamente equivalente a elegir el modelo con el menor $\log(\widehat{\sigma}^2)+K/n$. Este procedimiento es inconsistente.

La proposición: $$\lim_{n\rightarrow\infty}P\bigl(\bar{R}^2_1>\bar{R}^2_2|\mathcal{M}_1\bigr)<1$$

Prueba: \begin{eqnarray*} P\bigl(\bar{R}^2_1>\bar{R}^2_2|\mathcal{M}_1\bigr)&\approx&P\bigl(\log(s^2_1)<\log(s^2_2)|\mathcal{M}_1\bigr) \\ &=&P\bigl(n\log(s^2_1)<n\log(s^2_2)|\mathcal{M}_1\bigr) \\ &\approx&P(n\log(\widehat{\sigma}^2_1)+K_1<n\log(\widehat{\sigma}^2_2)+K_1+K_2|\mathcal{M}_1) \\ &=&P(n[\log(\widehat{\sigma}^2_1)-\log(\widehat{\sigma}^2_2)]<K_2|\mathcal{M}_1) \\ &\rightarrow&P(\chi^2_{K_2}<K_2) \\ &<&1, \end{eqnarray*} donde la 2ª a la última línea de la siguiente manera porque la estadística es el LR de la estadística en la regresión lineal caso que sigue un asintótica $\chi^2_{K_2}$ nula distribución. QED

Ahora considere la posibilidad de Akaike criterio del $$ AIC=\log(\widehat{\sigma}^2)+2\frac{K}{n} $$ Por lo tanto, la AIC también se comercializa fuera de la reducción de la SSR implícita por regresores adicionales en contra de la pena "término", que apunta en la dirección contraria. Por lo tanto, escoja $\mathcal{M}_1$ si $AIC_1<AIC_2$, de lo contrario seleccione $\mathcal{M}_2$.

Se puede observar que el $AIC$ es también incompatible continuando la anterior prueba en la línea de tres con $P(n\log(\widehat{\sigma}^2_1)+2K_1<n\log(\widehat{\sigma}^2_2)+2(K_1+K_2)|\mathcal{M}_1)$. El ajustado $R^2$ e las $AIC$, con lo que la elección de la "gran" modelo de $\mathcal{M}_2$ con probabilidad positiva, incluso si $\mathcal{M}_1$ es el verdadero modelo.

Como el castigo por la complejidad en la AIC es un poco más grande que el de ajustar $R^2$, puede ser menos propenso a overselect, aunque. Y tiene otras buenas propiedades (minimización de la divergencia KL para el modelo verdadero, si no que es en el conjunto de modelos considerados) que no se mencione en mi post.

5voto

Richard Hardy Puntos 6099

La pena en $R^2_{adj}$ no ceder el buen propiedades en términos de selección de modelo como le pertenecía por la AIC o BIC. La pena en $R^2_{adj}$ es suficiente para hacer de $R^2_{adj}$ un estimador imparcial de la población $R^2$ cuando ninguno de los regresores en realidad pertenece a la modelo (como por Dave Giles' blog "¿En Qué Sentido es el "Ajustado" R-Cuadrado Imparcial?" y "Más sobre las Propiedades de la "Ajustado" Coeficiente de Determinación"); sin embargo, $R^2_{adj}$ no es un modelo óptimo de selección.

(Podría ser una prueba por contradicción: si la AIC es óptima en un sentido y BIC es óptima en otro, y $R^2_{adj}$ no es equivalente a cualquiera de ellos, a continuación, $R^2_{adj}$ no es óptimo en cualquiera de estos dos sentidos.)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X