72 votos

Qué pseudo- $R^2$ ¿es la medida a reportar para la regresión logística (Cox & Snell o Nagelkerke)?

Tengo SPSS resultado de un modelo de regresión logística. La salida informa de dos medidas para el ajuste del modelo, Cox & Snell y Nagelkerke .

Así que, como regla general, ¿cuál de estos $R^²$ medidas informaría como el ajuste del modelo?

O bien, ¿cuál de estos índices de ajuste es el que suele aparecer en las revistas?


Algunos antecedentes: La regresión trata de predecir la presencia o ausencia de un ave (urogallo) a partir de algunas variables ambientales (por ejemplo, la pendiente, la cobertura vegetal, ...). Desgraciadamente, el pájaro no aparece muy a menudo (35 aciertos frente a 468 fallos) por lo que la regresión tiene un rendimiento bastante pobre. Cox & Snell es .09, Nagelkerke, .23.

La asignatura es ciencias ambientales o ecología.

96voto

jldugger Puntos 7490

Normalmente no informaría $R^2$ en absoluto. Hosmer y Lemeshow, en su libro de texto Regresión logística aplicada (2ª Ed.), explique por qué:

En general, [ $R^2$ las medidas] se basan en varias comparaciones de los valores predichos del modelo ajustado con los de [el modelo base], el modelo sin datos o el modelo con sólo intercepción y, como resultado, no evalúan la bondad del ajuste. Creemos que una verdadera medida de ajuste es la que se basa estrictamente en la comparación de los valores observados con los predichos por el modelo ajustado.

[En la p. 164.]

Con respecto a varias versiones de ML de $R^2$ El "pseudo". $R^2$ ", mencionan que no es "recomendable para el uso rutinario, ya que no es tan intuitivamente fácil de explicar", pero se sienten obligados a describirlo porque varios paquetes de software lo reportan.

Concluyen esta discusión escribiendo,

...bajo $R^2$ Los valores de la regresión logística son la norma y esto supone un problema a la hora de comunicar sus valores a un público acostumbrado a ver valores de regresión lineal. ... Por lo tanto, [argumentando con referencia a los ejemplos de ejecución en el texto] no recomendamos la publicación rutinaria de $R^2$ con los resultados de los modelos logísticos ajustados. Sin embargo, pueden ser útiles en el estado de construcción del modelo como estadística para evaluar los modelos en competencia.

[En la p. 167.]

Mi experiencia con algunos modelos logísticos de gran tamaño (entre 100.000 y 300.000 registros, entre 100 y 300 variables explicativas) ha sido exactamente la que describen H y L. Pude lograr un nivel relativamente alto de $R^2$ con mis datos, hasta aproximadamente 0,40. Esto correspondía a tasas de error de clasificación de entre el 3% y el 15% (falsos negativos y falsos positivos, equilibrados, como se confirmó utilizando conjuntos de datos del 50%). Como H & L insinuó, tuve que dedicar mucho tiempo a desengañar al cliente (un consultor sofisticado, que estaba familiarizado con $R^2$ ) sobre $R^2$ y conseguir que se centre en lo que importaba en el análisis (las tasas de error de clasificación). Le recomiendo encarecidamente que describa los resultados de su análisis sin hacer referencia a $R^2$ que es más probable que engañe que no.

3voto

Yo preferiría el Nagelkerke, ya que este ajuste del modelo alcanza 1 cuando el modelo se ajusta perfectamente, lo que da al lector una idea de lo lejos que está su modelo del ajuste perfecto. El Cox & Shell no alcanza 1 cuando el modelo se ajusta perfectamente y, por lo tanto, interpretar un valor de 0,09 es un poco más difícil. Consulte esta URL para obtener más información sobre Pseudo RSquared para una explicación de los distintos tipos de ajustes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X