Si se quiere justificar el uso del BIC: se puede sustituir la máxima verosimilitud por la estimación máxima a posteriori (MAP) y el criterio resultante de tipo 'BIC' sigue siendo asintóticamente válido (en el límite a medida que el tamaño de la muestra $n \to \infty$ ). Como menciona @probabilityislogic, la regresión logística de Firth es equivalente a utilizar un prior de Jeffrey (por lo que lo que se obtiene del ajuste de la regresión es el MAP).
El BIC es un criterio pseudobayesiano que se obtiene (aproximadamente) mediante una expansión en serie de Taylor de la verosimilitud marginal $$p_y(y) = \int L(\theta; y)\pi(\theta)\mathrm{d} \theta$$ en torno a la estimación de máxima verosimilitud $\hat{\theta}$ . De este modo, ignora la probabilidad a priori, pero el efecto de esta última desaparece a medida que la información se concentra en la probabilidad.
Como observación al margen, la regresión de Firth también elimina el sesgo de primer orden en las familias exponenciales.