47 votos

Interpretación de la Pseudo-$R^2$ en McFadden

Tengo un modelo de regresión logística binaria con un pseudo R-cuadrado de McFadden de 0,192 con una variable dependiente llamada pago (1 = pago y 0 = sin pago). ¿Cuál es la interpretación de este pseudo R-cuadrado?

¿Es una comparación relativa para modelos anidados (por ejemplo, un modelo de 6 variables tiene un pseudo R-cuadrado de McFadden de 0,192, mientras que un modelo de 5 variables (después de eliminar una variable del mencionado modelo de 6 variables), este modelo de 5 variables tiene un pseudo R-cuadrado de 0,131. ¿Deberíamos mantener esa sexta variable en el modelo?) o es una cantidad absoluta (por ejemplo, un modelo dado que tiene un pseudo R-cuadrado de McFadden de 0,192 es mejor que cualquier modelo existente con un pseudo R-cuadrado de McFadden de 0,180 (incluso para modelos no anidados)? Estas son solo posibles formas de ver el pseudo R-cuadrado de McFadden; sin embargo, asumo que estas dos vistas están muy alejadas, por lo tanto la razón por la que estoy haciendo esta pregunta aquí.

He investigado mucho sobre este tema y todavía no encuentro la respuesta que busco en términos de poder interpretar un pseudo R-cuadrado de McFadden de 0,192. ¡Cualquier idea y/o referencias son muy apreciadas! Antes de responder a esta pregunta, soy consciente de que esta no es la mejor medida para describir un modelo de regresión logística, ¡pero me gustaría tener una mayor comprensión de esta estadística de todos modos!

65voto

paul Puntos 181

Así que pensé en resumir lo que he aprendido sobre el pseudo $R^2$ de McFadden como una respuesta adecuada.

La referencia seminal que veo para el pseudo $R^2$ de McFadden es: McFadden, D. (1974) "Análisis logit condicional del comportamiento de elección cualitativa." Pp. 105-142 en P. Zarembka (ed.), Frontiers in Econometrics. Academic Press. http://eml.berkeley.edu/~mcfadden/travel.html La Figura 5.5 muestra la relación entre $\rho^2$ y las medidas tradicionales de $R^2$ de OLS. Mi interpretación es que valores más altos de $\rho^2$ (pseudo $R^2$ de McFadden) son mejores que los más pequeños.

La interpretación del pseudo $R^2$ de McFadden entre 0.2-0.4 proviene de un capítulo de libro en el que contribuyó: Modelado de Viajes del Comportamiento. Editado por David Hensher y Peter Stopher. 1979. McFadden contribuyó con el Capítulo 15 "Métodos Cuantitativos para Analizar el Comportamiento de Viaje de Individuos: Algunos Desarrollos Recientes". La discusión de la evaluación del modelo (en el contexto de modelos logit multinomiales) comienza en la página 306 donde introduce $\rho^2$ (pseudo $R^2$ de McFadden). McFadden afirma "mientras que el índice de $R^2$ es un concepto más familiar para los planificadores experimentados en OLS, no se comporta tan bien como la medida de $\rho^2$, para la estimación de ML. Aquellos que no están familiarizados con $\rho^2$ deben ser advertidos de que sus valores tienden a ser considerablemente más bajos que los del índice de $R^2$...Por ejemplo, valores de 0.2 a 0.4 para $\rho^2$ representan un ajuste EXCELENTE".

Así que básicamente, $\rho^2$ se puede interpretar como el $R^2$, pero no esperes que sea tan grande. Y los valores de 0.2-0.4 indican (en palabras de McFadden) un excelente ajuste del modelo.

3 votos

Buen resumen, Chris. ¡Gracias por tus esfuerzos!

0 votos

Llegué tarde a la discusión, pero dejaré este enlace donde explican el R2 MacFadden en comparación con otras medidas de ajuste: statisticalhorizons.com/r2logistic

21voto

Jonathan Bartlett Puntos 151

El $R^2$ de McFadden está definido como $1 - LL_{mod} / LL_0$, donde $LL_{mod}$ es el valor de la verosimilitud logarítmica para el modelo ajustado y $LL_0$ es la verosimilitud logarítmica para el modelo nulo que incluye solo una intersección como predictor (de modo que cada individuo se predice con la misma probabilidad de 'éxito').

Para un modelo de regresión logística, el valor de la verosimilitud logarítmica siempre es negativo (porque la contribución de verosimilitud de cada observación es una probabilidad entre 0 y 1). Si tu modelo realmente no predice mejor el resultado que el modelo nulo, $LL_{mod}$ no será mucho más grande que $LL_0$, y por lo tanto $LL_{mod} / LL_0 \approx 1$, y el pseudo-$R^2$ de McFadden es cercano a 0 (tu modelo no tiene valor predictivo).

Por el contrario, si tu modelo fue realmente bueno, las personas con un resultado de éxito (1) tendrían una probabilidad ajustada cercana a 1, y viceversa para aquellos con un resultado de fracaso (0). En este caso, si realizas el cálculo de la verosimilitud, la contribución de verosimilitud de cada individuo para tu modelo será cercana a cero, de modo que $LL_{mod}$ es cercana a cero, y el pseudo-$R^2$ de McFadden es cercano a 1, lo que indica una capacidad predictiva muy buena.

En cuanto a lo que se puede considerar un buen valor, mi opinión personal es que al igual que en otras preguntas similares en estadística (por ej. ¿qué constituye una correlación grande?), nunca puede haber una respuesta definitiva. El año pasado escribí una publicación de blog sobre el $R^2$ de McFadden en regresión logística, que tiene algunas ilustraciones de simulación adicionales.

10voto

Timo Geusch Puntos 16952

Hice una investigación más enfocada en este tema y descubrí que las interpretaciones del pseudo $R^2$ de McFadden (también conocido como índice de razón de verosimilitud) no están claras; sin embargo, puede variar de 0 a 1, pero nunca alcanzará ni superará 1 como resultado de su cálculo.

Una regla general que encontré bastante útil es que un pseudo $R^2$ de McFadden que oscila entre 0.2 y 0.4 indica un muy buen ajuste del modelo. Por lo tanto, el modelo mencionado anteriormente con un pseudo $R^2$ de 0.192 probablemente no sea un modelo terrible, al menos según esta métrica, pero tampoco es particularmente fuerte.

También es importante tener en cuenta que el pseudo $R^2$ de McFadden se utiliza mejor para comparar diferentes especificaciones del mismo modelo (es decir, modelos anidados). En referencia al ejemplo mencionado anteriormente, el modelo de 6 variables (pseudo $R^2$ de McFadden = 0.192) se ajusta mejor a los datos que el modelo de 5 variables (pseudo $R^2$ de McFadden = 0.131), lo cual probé formalmente mediante una prueba de razón de log-verosimilitud, que indica que hay una diferencia significativa (p < 0.001) entre los dos modelos, y por lo tanto se prefiere el modelo de 6 variables para el conjunto de datos dado.

1 votos

¿Cuál es la referencia que encontraste que afirma que el McFadden's R2 entre 0.2 y 0.4 es un ajuste "muy bueno"?

1 votos

Por cierto... aquí hay una referencia y enlace al artículo original de McFadden donde define su medida pseudo R2. McFadden, D. (1974) "Análisis logit condicional del comportamiento de elección cualitativa." Pp. 105-142 en P. Zarembka (ed.), Frontiers in Econometrics. Academic Press. elsa.berkeley.edu/reprints/mcfadden/zarembka.pdf

0 votos

@Chris, lifesciencesite.com/lsj/life1002/…, página 2029 (La frase exacta se puede encontrar en la sección inferior derecha de la página de Louviere et al., 2000). Dicho esto, recomiendo el área bajo la curva (AUC), la c-estadística, en lugar de utilizar el pseudo R-cuadrado de McFadden ya que es una medida mucho más robusta con una interpretación simple.

8voto

Yiran Puntos 41

En caso de que alguien todavía esté interesado en encontrar las propias palabras de McFadden, aquí está el enlace. En una nota al pie, McFadden (1977, p.35) escribió que "los valores de .2 a .4 para [$\rho^2$] representan un ajuste excelente". El documento está disponible en línea.

http://cowles.yale.edu/sites/default/files/files/pub/d04/d0474.pdf

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X