21 votos

¿Intenta el BIC encontrar un modelo verdadero?

Esta pregunta es un seguimiento o intento de aclarar una posible confusión respecto a un tema que a mí y a muchos otros nos resulta un poco difícil, respecto a la diferencia entre AIC y BIC. En una respuesta muy agradable por @Dave Kellen sobre este tema ( https://stats.stackexchange.com/a/767/30589 ) leemos:

Su pregunta implica que el AIC y el BIC intentan responder a la misma pregunta, lo cual no es cierto. El AIC intenta seleccionar el modelo que adecuadamente una realidad desconocida y muy dimensional. Esto significa que la realidad nunca está en el conjunto de modelos candidatos que se están en consideración. Por el contrario, el BIC trata de encontrar el modelo VERDADERO entre entre el conjunto de candidatos. Me parece bastante impar la suposición de que la realidad está instanciada en uno de los modelos que los investigadores construyeron a lo largo el camino. Este es un verdadero problema para BIC.

En un comentario más abajo, de @gui11aume , leemos:

(-1) Gran explicación, pero me gustaría cuestionar una afirmación. @Dave Kellen ¿Podría usted por favor dar una referencia a donde la idea de que el modelo TRUE tiene que estar en el conjunto para BIC? Me gustaría investigar sobre esto, ya que en este libro t prueba de que no es así. - gui11aume 27 mayo '12 en 21:47

Parece que esta afirmación procede del propio Schwarz (1978), aunque la afirmación no era necesaria: De los mismos autores (a los que enlaza @gui11aume), leemos en su artículo "Multimodel inference: Understanding AIC and BIC in Model selection" (Burnham y Anderson, 2004):

¿Supone la derivación del BIC que t o, más concretamente, ¿se supone que el modelo verdadero está en el conjunto de modelos cuando se utiliza el BIC? BIC? (La derivación de Schwarz especificaba estas condiciones) ... La respuesta respuesta ... no. Es decir, el BIC (como base para una aproximación a una cierta integral bayesiana) puede derivarse sin suponer que el modelo subyacente a la derivación sea verdadero (véase, por ejemplo, Cavanaugh y Neath 1999; Burnham y Anderson 2002:293-5). Ciertamente, al aplicar el BIC el conjunto de modelos no tiene por qué contener el modelo verdadero (inexistente). que represente toda la realidad. Además, la convergencia en probabilidad de el modelo seleccionado por BIC a un modelo targbet (bajo la idealización de una muestra iid) no significa lógicamente que ese modelo objetivo deba ser la verdadera distribución generadora de datos).

Por lo tanto, creo que merece la pena debatir o aclarar (si es necesario) este tema. Ahora mismo, lo único que tenemos es un comentario de @gui11aume (¡gracias!) bajo una respuesta muy votada sobre la diferencia entre AIC y BIC.

15voto

Mike Krebs Puntos 61

El Criterio de Información de Schwarz (1978) se diseñó con la característica de que asintóticamente elige el modelo con las probabilidades posteriores más altas, es decir, el modelo con la probabilidad más alta dados los datos bajo igualdad de probabilidades a priori. Así, aproximadamente $$ \frac{p(M_1|y)}{p(M_2|y)} > 1 \overset{A}{\sim} SIC(M_1) < SIC(M_2) $$ donde $\overset{A}{\sim}$ denota "asintóticamente equivalente" y $p(M_j|y)$ es la posterior del modelo $j$ datos facilitados $y$ . No veo cómo este resultado dependería de que el modelo 1 fuera verdadero (¿hay siquiera un modelo verdadero en un marco bayesiano?).

Lo que creo que es responsable de la confusión es que el SIC tiene la otra bonita característica de que, en determinadas condiciones, seleccionará asintóticamente el modelo "verdadero" si éste se encuentra dentro del universo del modelo. Tanto el AIC como el SIC son casos especiales del criterio $$ IC(k) = -\frac{2}{T} \mathcal{l}(\hat{\theta};y) + k g(T) $$ donde $\mathcal{l}(\hat{\theta};y)$ es la probabilidad logarítmica de las estimaciones de los parámetros $\hat{\theta}$ , $k$ es el número de parámetros y $T$ es el tamaño de la muestra. Cuando el universo de modelos consiste en modelos lineales gaussianos, se puede demostrar que necesitamos: $$ g(T) \to 0 \; \text{as} \;\infty $$ para que el CI no seleccione un modelo que sea menor que el modelo verdadero con probabilidad uno y $$ Tg(T) \to \infty \; \text{as} \;\infty $$ para que el CI no seleccione un modelo mayor que el modelo verdadero con probabilidad uno. Tenemos que $$ g_{AIC}(T) = \frac{2}{T},\;\; g_{SIC}(T) = \frac{\ln{T}}{T} $$ Así pues, el SIC cumple ambas condiciones, mientras que el AIC cumple la primera, pero no la segunda. Para una exposición muy accesible de estas características y un análisis de las implicaciones prácticas, véase Capítulo 6 de este libro .

Elliott, G. y A. Timmermann (2016, abril). Economic Forecasting. Princeton University Press.

Schwarz, Gideon. "Estimación de la dimensión de un modelo". The annals of statistics 6.2 (1978): 461-464.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X