5 votos

¿Por qué la fórmula del BIC no incluye $\frac{\lambda}{\pi}$ ¿en él?

He estado revisando la derivación del BIC. En el artículo original de Schwarz (enlazado más abajo) llega a \begin{align*} nA-\frac{1}{2}k_j\log\left(\frac{n\lambda}{\pi}\right)+\log\alpha_j \end{align*} para el término de penalización, donde $n$ es el tamaño de la muestra, $A$ es una constante (creo), $k_j$ es la dimensión del espacio de parámetros del modelo $j$ , $\lambda$ es una constante y $\alpha_j$ es la probabilidad a priori del modelo $j$ . Creo que puedo seguir hasta aquí, pero a partir de aquí me cuesta un poco. En primer lugar, no estoy seguro de cómo justifica ignorar $nA$ . A partir del teorema del límite central, podemos suponer que la función de probabilidad es aproximadamente una probabilidad normal y entonces creo que tenemos \begin{align*} nA=n\log\left(\frac{1}{\sqrt{2\pi}|\Sigma|}\right), \end{align*} que es independiente del modelo si $\Sigma$ es independiente del modelo. Entonces el $nA$ término puede ser ignorado. $\alpha_j$ es la probabilidad a priori del modelo $j$ Así que si haces que todas las probabilidades a priori sean iguales (cuestionable, pero conduce a la forma estándar del BIC) entonces este término puede ser ignorado. Entonces se queda con \begin{align*} -\frac{1}{2}k_j\log\left(\frac{n\lambda}{\pi}\right). \end{align*}

Claramente en el límite podemos aproximar esto con \begin{align*} -\frac{1}{2}k_j\log{}n \end{align*} desde $k_j$ y $\lambda$ son constantes. Sin embargo, mi pregunta es por qué no dejar $\lambda$ y $\pi$ en la ecuación? Si asumimos una probabilidad normal a partir del teorema central del límite, entonces $\lambda=\frac{1}{2}$ y podemos evaluar la ecuación más general. Dado que $k_j$ depende del modelo, entonces $k_j\log\left(\frac{\lambda}{\pi}\right)$ también depende del modelo. Aunque es $O\left(1\right)$ , $k_j\log{}n$ es $O\left(\log{}n\right)$ , por lo que la divergencia es muy lenta y parece que $-\frac{1}{2}k_j\log{}n$ a menudo sería una mala aproximación a $-\frac{1}{2}k_j\log\left(\frac{n\lambda}{\pi}\right)$ para un número finito de $n$ .

Gracias.

https://projecteuclid.org/euclid.aos/1176344136

4voto

user256670 Puntos 49

La respuesta sencilla a su pregunta está en lo abstracto:

Estos términos son un criterio válido para grandes muestras más allá del contexto bayesiano, ya que no dependen de la distribución a priori.

Schwarz quiere un resultado que no dependa de la distribución a priori. Obsérvese que nunca asume que las probabilidades a priori de cada modelo $\alpha_j$ son iguales, sólo que los priores condicionales dado que el $j^{\text{th}}$ es cierto son localmente acotados lejos de cero. Otras personas podrían asumir rutinariamente una prioridad uniforme sobre los modelos ( $\alpha_i = \alpha_j$ para todos $i, j$ ) al utilizar el BIC, pero no lo hace.

Esto significa que Schwarz está tratando con términos $\alpha_j$ de una manera totalmente diferente a los que asumen un previo uniforme sobre los modelos, y trata esos términos considerando sólo el límite como $n \to \infty$ . De esta forma se obtiene el resultado principal, que como $n \to \infty$ tenemos:

$$ \begin{align*} S(Y, n, j) & = nA - \frac{1}{2} k_j \log\left(\frac{\lambda}{\pi} n\right) + \log(\alpha_j) + R_0 \\ & = nA - \frac{1}{2} k_j \log(n) - \frac{1}{2} k_j \log\left(\frac{\lambda}{\pi}\right) + \log(\alpha_j) + R_0 \\ & = nA - \frac{1}{2} k_j \log(n) + R \end{align*} $$ donde $R_0$ y $R$ están acotados con respecto a $n$ .

Esencialmente, porque Schwarz quiere un resultado que sea verdadero incluso si la prioridad es no se supone que es uniforme sobre los modelos, tiene que derivar un resultado asintótico para eliminar la $\log(\alpha_j)$ término. Pero si sólo se deriva un resultado asintótico, se puede desechar el $- \frac{1}{2} k_j \log\left(\frac{\lambda}{\pi}\right)$ término también. No está considerando el caso de la finitud $n$ en absoluto.

Sin embargo, Schwarz hace suposiciones que implican $A$ es constante. Porque $Y$ y $b$ son constantes (la proposición principal afirma que $Y$ es fijo, y $b$ no aparece en los argumentos de $S$ ), se puede deducir que el supremum está sobre $\theta$ . Entonces $A = \sup_{\theta} Y \circ \theta - b(\theta)$ es constante. Por lo tanto, Schwarz no considera el caso en que $A$ diferirían entre los modelos. Dado que el objetivo final es la comparación de modelos, y el término $nA$ es el mismo para ambos modelos, se puede ignorar.

Si se hacen suposiciones diferentes a las de Schwarz, como suponer un $n$ un prior uniforme sobre los modelos, y tal vez incluso que el $A$ podría diferir, entonces, por supuesto, se obtendría un resultado diferente. Si su verdadera pregunta es por qué la gente utiliza (o quizás "abusa") del BIC para los $n$ sin el $\lambda/\pi$ término, no puedo responder, pero espero que el argumento original de Schwarz quede claro.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X