44 votos

¿Cuál es la importancia de los coeficientes de la regresión logística?

Actualmente estoy leyendo un papel sobre el lugar y la preferencia de voto en las elecciones de 2000 y 2004. En él, hay un gráfico que muestra los coeficientes de regresión logística. De cursos atrás y un poco leer arriba Entiendo que la regresión logística es una forma de describir la relación entre múltiples variables independientes y una variable de respuesta binaria. Lo que me confunde es, teniendo en cuenta la tabla de abajo, porque el Sur tiene un coeficiente de regresión logística de 0,903, ¿significa eso que el 90,3% de los sureños votan a los republicanos? Debido a la naturaleza logística de la métrica, que esta correlación directa no existe. En cambio, supongo que sólo se puede decir que el sur, con .903, vota más a los republicanos que las Montañas/Planos, con la regresión de .506. Dado que esto último es así, ¿cómo sé qué es significativo y qué no lo es y es posible extrapolar un porcentaje de votos republicanos dado este coeficiente de regresión logística? Table showing logistic regression coefficients

Como nota al margen, por favor, edite mi post si algo se ha expresado incorrectamente

0 votos

Esto es más bien una pregunta de seguimiento (y probablemente no debería publicarla), pero ¿has encontrado una buena manera de "es posible extrapolar un porcentaje" porque eso es más o menos lo que estoy buscando.

2 votos

Creo que sería mejor que formulara esto como una pregunta independiente y la publicara por separado en lugar de responderla aquí.

0 votos

Si alguien se pregunta por el artículo, es de SC McKee y JM Teigen Sondeando los rojos y los azules: Seccionalismo y localización de los votantes en las elecciones presidenciales estadounidenses de 2000 y 2004 (2009) Geografía política

38voto

dmk38 Puntos 1066

El hecho de que el autor haya obligado a alguien tan reflexivo como usted a plantear una pregunta como ésta es una ilustración convincente de por qué la práctica -todavía camino demasiado común- de limitar la información de los resultados de los modelos de regresión a una tabla como ésta es tan inaceptable.

  1. Se puede, como se ha señalado, intentar transformar el coeficiente logit en alguna indicación significativa del efecto que se estima para el predictor en cuestión, pero eso es engorroso y no transmite información sobre el precisión de la predicción, que suele ser bastante importante en un modelo de regresión logística (sobre el voto en particular).

  2. Además, el uso de múltiples asteriscos para informar de los "niveles" de significación refuerza la idea errónea de que los valores p son un índice significativo del tamaño del efecto ("vaya, ese tiene 3 asteriscos!"); por el amor de Dios, con N de 10.000 a 20.000, diferencias completamente triviales serán "significativas" a p < .001 bla bla.

  3. No hay ninguna necesidad de mistificar de esta manera. El modelo de regresión logística es una ecuación que puede utilizarse (mediante un cálculo determinado o, mejor aún, mediante una simulación) para predecir la probabilidad de un resultado condicionado a unos valores específicos de los predictores, sujetos a un error de medición. Por tanto, el investigador debe informe cuál es el impacto de los predictores de interés en la probabilidad de la variable de resultado de interés, & el IC asociado, medido en unidades cuya importancia práctica se puede captar fácilmente. Para garantizar una fácil comprensión, los resultados deben representarse gráficamente. En este caso, por ejemplo, el investigador podría informar de que ser un votante rural en lugar de urbano aumenta la probabilidad de votar a los republicanos, en igualdad de condiciones, en X puntos porcentuales (supongo que alrededor de 17 en 2000; "dividir por 4" es una heurística razonable) +/- x% con un nivel de confianza del 0,95, si es algo que resulta útil saber.

  4. El informe de la pseudo R^2 es también una señal de que el modelador se dedica a un ritual estadístico más que a un intento de iluminar. Hay decenas de formas de calcular la "pseudo R^2"; uno podría quejarse de que la utilizada aquí no está especificada, pero ¿para qué molestarse? Todas son casi insignificantes. La única razón por la que alguien utiliza la pseudo R^2 es porque ellos o el revisor que los está torturando aprendieron (probablemente hace 25 o más años) que la regresión lineal OLS es el santo grial de la estadística y piensan que lo único que uno intenta averiguar es la "varianza explicada". Hay muchas formas defendibles de evaluar la adecuación del ajuste general del modelo para el análisis logístico, y la razón de verosimilitud transmite información significativa para comparar modelos que reflejan hipótesis alternativas. King, G. Cómo no mentir con las estadísticas . Am. J. Pol. Sci. 30, 666-687 (1986).

  5. Si lee un artículo en el que los informes se limitan más o menos a una tabla como ésta, no se confunda, no se sienta intimidado y, desde luego, no se deje impresionar. angry Y dígale al investigador que está haciendo un trabajo pésimo (sobre todo si está contaminando su entorno intelectual local con misticismo y asombro; es sorprendente la cantidad de pensadores completamente mediocres que engañan a las personas inteligentes haciéndoles creer que saben algo sólo porque pueden producir una tabla que estas últimas no pueden entender). Para exposiciones inteligentes y moderadas de estas ideas, véase King, G., Tomz, M. y Wittenberg, J. Aprovechar al máximo los análisis estadísticos: Mejorar la interpretación y la presentación . Am. J. Pol. Sci. 44, 347-361 (2000); y Gelman, A., Pasarica, C. & Dodhia, R. Practiquemos lo que predicamos: Convertir las tablas en gráficos . Am. Stat. 56, 121-130 (2002).

22voto

Niall C. Puntos 1234

La idea es que en la regresión logística no se predice la probabilidad real de que, por ejemplo, un sureño vote a los republicanos, sino una versión transformada de la misma, la "log odds". En lugar de la probabilidad $p$ nos ocupamos de $\log p/(1-p)$ y encontrar los coeficientes de regresión lineal para las probabilidades logarítmicas.

Así, por ejemplo, supongamos que un nordestino urbano tiene una probabilidad de 0,3 de votar a un republicano. (Por supuesto, esto formaría parte de la regresión; no lo veo en esta tabla, aunque supongo que está en el documento original). Ahora bien, $x = 1/(1+e^{-z})$ da $z = \log {x \over 1-x}$ eso es, $f^{-1}(x) = \log {x \over 1-x}$ las "probabilidades logarítmicas" correspondientes a $x$ . Estas "probabilidades logarítmicas" son las que se comportan linealmente; las probabilidades logarítmicas correspondientes a $0.3$ son $\log 0.3/0.7 \approx -0.85$ . Así que las probabilidades de que un sureño urbano vote a los republicanos son estas (lo que Wikipedia llama la intercepción, $\beta_0$ ) más el coeficiente de regresión logística para el Sur, $0.903$ -- eso es, $-0.85 + 0.904 = 0.05$ . Pero quieres una probabilidad real, así que tenemos que invertir la función $p \to \log p/(1-p)$ . Eso da $f(0.05) \approx 1/(1+e^{-0.05}) \approx 0.51$ . Las probabilidades reales han pasado de $0.43$ a $1$ , a $1.05$ a $1$ la relación $1.05/0.43$ es $e^{0.903}$ , la exponencial del coeficiente de regresión logística.

Además, los efectos de, por ejemplo, la región del país y lo urbano/suburbano/rural no interactúan. Así, las probabilidades de que un habitante del medio rural vote a los republicanos, por ejemplo, son $-0.85 + 0.37 + 0.68 = +0.20$ según este modelo; la probabilidad es $f(0.20) = 1/(1+e^{-0.20}) = 0.55$ .

2 votos

Heurística: dividir por 4--el coeficiente logit/4 es la diferencia aproximada de puntos porcentuales en la probabilidad de un cambio de una unidad. Eso no es lo mismo que decir "la persona con subn característica = z tiene un x% de probabilidad". No sólo (como se ha señalado) hay que sumar sub0 y restar la probabilidad asociada a la clase de referencia. También es necesario tener en cuenta la colinealidad de los predictores. Dado que el hecho de ser del sur se correlaciona con otros predictores, no será cierto que la probabilidad de que un sureño vote a un republicano sea inferior a 0, es decir, las probabilidades logarítmicas transformadas para el NE más las probabilidades logarítmicas transformadas para el sur. Es mejor decir, "a igualdad de condiciones, ser del sur predice un cambio de x punto porcentual en la probabilidad de"

1 votos

"Las probabilidades reales han pasado de 0,43 a 1". De dónde salió el 0,43 en primer lugar?

0 votos

La probabilidad original de $0.3$ cuando se expresa en forma de probabilidades, es $0.3/(1-0.3) \approx 0.43$ .

6voto

curiousguy Puntos 81

Permítanme subrayar la importancia de lo que señalaron rolando2 y dmk38: la significación se interpreta comúnmente de forma errónea, y hay un alto riesgo de que eso ocurra con esa presentación tabular de los resultados.

Paul Schrodt recientemente ofreció una buena descripción del tema:

A los investigadores les resulta casi imposible atenerse a la interpretación correcta de la prueba de significación. El valor p sólo indica la probabilidad de obtener un resultado en las condiciones [normalmente] completamente irreales de la hipótesis nula. Lo cual no es lo que se quiere saber; normalmente se quiere saber la magnitud del efecto de una variable independiente, dados los datos. Esa es una pregunta bayesiana, no una pregunta frecuentista. En su lugar, vemos -constantemente- el valor p interpretado como si diera la fuerza de la asociación: este es el omnipresente Culto Místico de las Estrellas y los Valores P que impregna nuestras revistas.(fn) Esto no es lo que dice el valor p, ni lo dirá nunca.

Según mi experiencia, este error es casi imposible de evitar: incluso analistas muy cuidadosos que son plenamente conscientes del problema suelen cambiar de modo cuando discuten verbalmente sus resultados, incluso si han evitado el problema en una exposición escrita. Y ni siquiera especulemos sobre las miles de horas y litros de tinta que hemos gastado corrigiendo esto en los trabajos de grado.

(fn) La nota a pie de página también informa sobre otra cuestión, mencionada por dmk38: "[el omnipresente Culto Místico de las Estrellas y los Valores P] suplantó al anterior -e igualmente omnipresente- Culto del Más Alto R2, demolido por Rey (1986) ."

0 votos

Oh Acabo de añadir la cita de King a mi respuesta editada. El artículo, en efecto, echa por tierra la manía de R^2 (todavía endémica en la econometría) incluso cuando la estadística tiene un significado -- para la regresión OLS. King señala también que esa pseudo R^2 es un galimatías que se fabricó para extender la irreflexión asociada a la "varianza explicada".

6voto

Factor Mystic Puntos 12465

Los coeficientes de la regresión logística representan la tendencia de una región/demográfica determinada a votar a los republicanos, en comparación con una categoría de referencia. Un coeficiente positivo significa que esa región tiene más probabilidades de votar a los republicanos, y viceversa para un coeficiente negativo; un valor absoluto mayor significa una tendencia más fuerte que un valor menor.

Las categorías de referencia son "noreste" y "votante urbano", por lo que todos los coeficientes representan contrastes con este tipo concreto de votante.

En general, tampoco hay ninguna restricción para que los coeficientes de una regresión logística estén en [0, 1], ni siquiera en valor absoluto. Fíjate que el propio artículo de la Wikipedia tiene un ejemplo de una regresión logística con coeficientes de -5 y 2.

6voto

pauly Puntos 932

También has preguntado "cómo sé lo que es significativo y lo que no". (Supongo que te refieres a lo que es estadísticamente significativo, ya que la significación práctica o sustantiva es otra cosa). Los asteriscos de la tabla se refieren a la nota a pie de página: se señala que algunos efectos tienen poca p -valores. Estos se obtienen mediante una prueba de Wald de la significación de cada coeficiente. Suponiendo un muestreo aleatorio, p <.05 significa que, si no existiera tal efecto en la población más grande, la probabilidad de ver una conexión tan fuerte como la observada, o más fuerte, en una muestra de este tamaño sería inferior a .05. Verá muchos hilos en este sitio que discuten el sutil pero importante punto relacionado que p <.05 hace no significa que hay una probabilidad de 0,05 de que no haya ninguna conexión en la población mayor.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X