La corrección de Firth equivale a especificar la prior de Jeffrey y buscar la moda de la distribución posterior. A grandes rasgos, añade la mitad de una observación al conjunto de datos suponiendo que los verdaderos valores de los parámetros de regresión son iguales a cero.
El artículo de Firth es un ejemplo de asintótica de orden superior. El orden nulo, por así decirlo, lo proporcionan las leyes de los grandes números: en muestras grandes, $\hat \theta_n \approx \theta_0$ donde $\theta_0$ es el valor verdadero. Es posible que haya aprendido que las MLE son asintóticamente normales, aproximadamente porque se basan en transformaciones no lineales de sumas de variables i.i.d. (puntuaciones). Esta es la aproximación de primer orden: $\theta_n = \theta_0 + O(n^{-1/2}) = \theta_0 + v_1 n^{-1/2} + o(n^{-1/2})$ donde $v_1$ es una variable normal con media cero y varianza $\sigma_1^2$ (o matriz var-cov) que es la inversa de la información de Fisher para una sola observación. El estadístico de la prueba de la razón de verosimilitud es entonces asintóticamente $n(\hat\theta_n - \theta_0)^2/\sigma_1^2 \sim \chi^2_1$ o cualesquiera que sean las extensiones multivariantes de los productos internos y las matrices de covarianza inversas.
La asintótica de orden superior intenta aprender algo sobre ese próximo término $o(n^{-1/2})$ normalmente sacando el siguiente término $O(n^{-1})$ . De este modo, las estimaciones y los estadísticos de prueba pueden incorporar los pequeños sesgos muestrales del orden de $1/n$ (si ves el artículo que dice "tenemos MLEs insesgados", probablemente esa gente no sabe de lo que está hablando). La corrección más conocida de este tipo es la corrección de Bartlett para las pruebas de razón de verosimilitud. La corrección de Firth también es de ese tipo: añade una cantidad fija $\frac12 \ln \det I(\theta)$ (parte superior de la p. 30) a la probabilidad, y en muestras grandes la contribución relativa de esa cantidad desaparece a razón de $1/n$ eclipsado por la información de la muestra.