He estado revisando la derivación del BIC. En el artículo original de Schwarz (enlazado más abajo) llega a \begin{align*} nA-\frac{1}{2}k_j\log\left(\frac{n\lambda}{\pi}\right)+\log\alpha_j \end{align*} para el término de penalización, donde $n$ es el tamaño de la muestra, $A$ es una constante (creo), $k_j$ es la dimensión del espacio de parámetros del modelo $j$ , $\lambda$ es una constante y $\alpha_j$ es la probabilidad a priori del modelo $j$ . Creo que puedo seguir hasta aquí, pero a partir de aquí me cuesta un poco. En primer lugar, no estoy seguro de cómo justifica ignorar $nA$ . A partir del teorema del límite central, podemos suponer que la función de probabilidad es aproximadamente una probabilidad normal y entonces creo que tenemos \begin{align*} nA=n\log\left(\frac{1}{\sqrt{2\pi}|\Sigma|}\right), \end{align*} que es independiente del modelo si $\Sigma$ es independiente del modelo. Entonces el $nA$ término puede ser ignorado. $\alpha_j$ es la probabilidad a priori del modelo $j$ Así que si haces que todas las probabilidades a priori sean iguales (cuestionable, pero conduce a la forma estándar del BIC) entonces este término puede ser ignorado. Entonces se queda con \begin{align*} -\frac{1}{2}k_j\log\left(\frac{n\lambda}{\pi}\right). \end{align*}
Claramente en el límite podemos aproximar esto con \begin{align*} -\frac{1}{2}k_j\log{}n \end{align*} desde $k_j$ y $\lambda$ son constantes. Sin embargo, mi pregunta es por qué no dejar $\lambda$ y $\pi$ en la ecuación? Si asumimos una probabilidad normal a partir del teorema central del límite, entonces $\lambda=\frac{1}{2}$ y podemos evaluar la ecuación más general. Dado que $k_j$ depende del modelo, entonces $k_j\log\left(\frac{\lambda}{\pi}\right)$ también depende del modelo. Aunque es $O\left(1\right)$ , $k_j\log{}n$ es $O\left(\log{}n\right)$ , por lo que la divergencia es muy lenta y parece que $-\frac{1}{2}k_j\log{}n$ a menudo sería una mala aproximación a $-\frac{1}{2}k_j\log\left(\frac{n\lambda}{\pi}\right)$ para un número finito de $n$ .
Gracias.