22 votos

En busca de una comprensión teórica de la regresión logística de Firth

Estoy intentando comprender la regresión logística de Firth (método de tratamiento de la separación perfecta/completa o cuasi-completa en la regresión logística) para poder explicárselo a otros en términos simplificados. ¿Alguien tiene una explicación simplificada de la modificación que la estimación de Firth hace a la MLE?

He leído, lo mejor que he podido, Firth (1993) y entiendo que se aplica una corrección a la función de puntuación. Estoy confuso sobre el origen y la justificación de la corrección y qué papel desempeña la función de puntuación en MLE.

Lo siento si se trata de conocimientos rudimentarios. La literatura que he revisado parece requerir un conocimiento de la MLE mucho más profundo del que poseo.

18voto

StasK Puntos 19497

La corrección de Firth equivale a especificar la prior de Jeffrey y buscar la moda de la distribución posterior. A grandes rasgos, añade la mitad de una observación al conjunto de datos suponiendo que los verdaderos valores de los parámetros de regresión son iguales a cero.

El artículo de Firth es un ejemplo de asintótica de orden superior. El orden nulo, por así decirlo, lo proporcionan las leyes de los grandes números: en muestras grandes, $\hat \theta_n \approx \theta_0$ donde $\theta_0$ es el valor verdadero. Es posible que haya aprendido que las MLE son asintóticamente normales, aproximadamente porque se basan en transformaciones no lineales de sumas de variables i.i.d. (puntuaciones). Esta es la aproximación de primer orden: $\theta_n = \theta_0 + O(n^{-1/2}) = \theta_0 + v_1 n^{-1/2} + o(n^{-1/2})$ donde $v_1$ es una variable normal con media cero y varianza $\sigma_1^2$ (o matriz var-cov) que es la inversa de la información de Fisher para una sola observación. El estadístico de la prueba de la razón de verosimilitud es entonces asintóticamente $n(\hat\theta_n - \theta_0)^2/\sigma_1^2 \sim \chi^2_1$ o cualesquiera que sean las extensiones multivariantes de los productos internos y las matrices de covarianza inversas.

La asintótica de orden superior intenta aprender algo sobre ese próximo término $o(n^{-1/2})$ normalmente sacando el siguiente término $O(n^{-1})$ . De este modo, las estimaciones y los estadísticos de prueba pueden incorporar los pequeños sesgos muestrales del orden de $1/n$ (si ves el artículo que dice "tenemos MLEs insesgados", probablemente esa gente no sabe de lo que está hablando). La corrección más conocida de este tipo es la corrección de Bartlett para las pruebas de razón de verosimilitud. La corrección de Firth también es de ese tipo: añade una cantidad fija $\frac12 \ln \det I(\theta)$ (parte superior de la p. 30) a la probabilidad, y en muestras grandes la contribución relativa de esa cantidad desaparece a razón de $1/n$ eclipsado por la información de la muestra.

2 votos

Perdona mi falta de comprensión, pero no te entiendo del todo. Cuando dices "Aproximadamente, añade la mitad de una observación al conjunto de datos suponiendo que los valores verdaderos de los parámetros de regresión son iguales a cero". ¿Por qué asumir que los verdaderos valores de los parámetros de regresión son iguales a cero? Además, ¿cómo es que añade la mitad de una observación al conjunto de datos?

1 votos

Por el resto de tu explicación, parece que la función de verosimilitud se ajusta mediante una cantidad fija que reduce el sesgo positivo de las muestras pequeñas. La cantidad fija es efectivamente una función de la información que va a cero a medida que aumenta el tamaño de la muestra, ¿correcto?

1 votos

Sobre tu primer comentario -- la corrección de Firth es aproximadamente el valor esperado de una contribución a la probabilidad que habría sido añadida por una observación que tendría un peso efectivo de 1/2. Esto no es de ninguna manera la explicación correcta, y mucho menos la intuición de por qué usted quiere hacer esto, sólo le da el sabor. Pones los coeficientes a cero porque no tienes ninguna idea mejor de lo que van a ser los números (y los coeficientes cero se corresponden perfectamente con la ausencia de efecto de los regresores, lo que tiene sentido la mayoría de las veces). En cuanto a tu segundo comentario, correcto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X