9 votos

Diferencia entre "regresión logística" y "GLM binómico con enlace logístico"

Estoy leyendo el artículo Soy un profesor de estadísticas. Por eso el modelo de Nate Silver estaba en el aire en un sitio web de noticias (no en una publicación académica).

El autor (Dale Rosenthal, profesor clínico adjunto de finanzas de la Universidad de Illinois en Chicago) trata de articular una crítica a la modelización de las elecciones presidenciales de Nate Silver. Su primer punto tiene que ver con la formulación del modelo:

538 debería modelar la raza de cada estado con un modelo lineal generalizado un modelo lineal generalizado: un modelo multinomial para estimar las probabilidades de que Clinton, Trump, Johnson, McMullin y Stein ganen cada uno ese estado o un modelo binomial de enlace logístico para Trump contra Clinton. Estos modelos fueron creados para este tipo de escenarios. Es un poco de trabajo de trabajo utilizarlos: hay que introducir el número de encuestados a favor de de cada candidato en lugar de limitarse a introducir los porcentajes indicados. Sin embargo, eso tendría la ventaja añadida de no confiar en ninguna de las afirmaciones de incertidumbre de las encuestas.

Aunque Nate Silver no lo detalla en su sitio, parece ser usando una regresión lineal o una regresión logística. Dado que la regresión logística es una mejor opción, voy a asumir que está usando eso. Algunas personas pueden confundir la regresión logística y un MLG binomial con una logística [Nota del OP: creo que quiere decir logit] enlace, pero no son lo mismo. La diferencia está en cómo manejan la incertidumbre de los eventos inusuales (es decir, la probabilidad derrumbes). Esto se debe a que un binomio [Nota del OP: creo que se refiere a bernoulli] variable aleatoria con probabilidad de éxito p tiene una varianza de p*(1-p). En otras palabras: una carrera que está casi empatada es mucho más sensible a todas las entradas que que una carrera que probablemente sea un éxito rotundo. Por ejemplo, Reagan tendría que que meter la pata hasta el fondo para perder contra Mondale, mientras que una una pequeña metedura de pata de W podría haber dado la victoria a Gore.

Un GLM binomial con un enlace logístico se construye para ese tipo de variación en la sensibilidad. La regresión logística no está construida para manejar eso. Debido a que la regresión logística no maneja esa variación en sensibilidad, tiende a estar sesgada para los eventos que se estima que son que se estima que son raros. Dado que la mayoría de las encuestas y metaencuestas estiman que una victoria de Trump muy improbable, esto sugiere que la forma del modelo de Silver probablemente sesgar sus resultados.

Siempre pensé que estaba haciendo una "regresión logística" cuando invocaba el MLG: glm(formula, family=binomial(link = "logit")) . Pero el autor parece tener algo diferente en mente.

Preguntas un poco relacionadas:

Parece que lo que el autor intenta decir es que los recuentos de votos deberían modelarse como variables aleatorias binomiales en lugar de los resultados estatales como variables aleatorias bernoulli. ¿Es correcta esa interpretación, o qué es exactamente lo que intenta decir el autor?

5 votos

Ese autor debe tener una definición de "regresión logística" diferente a la mía. ¿Escribirle y preguntarle?

5 votos

Estoy de acuerdo con @kjetilbhalvorsen. Además, todo el argumento no me parece muy convincente. El autor parece decir "No sé qué metodología utilizaron, pero si usaran la que yo enseño en Stats 101, entonces acertarían" -- es tan fácil hacer tales juicios post factum ... ¿Por qué no produjo sus previsiones antes de la elección y la publicó? Si lees algunas cosas que escribió Nate Silver, te darás cuenta de que él conoce de lo que está hablando y sabe lo que es la regresión logística...

0 votos

@Tim: Sí. Otra cosa, este autor encuentra un problema particular con el enfoque de Nate Silverss, que asume una alta probabilidad imposible para una victoria de Trump, por lo que debe ser malo ...

9voto

Sean Hanley Puntos 2428

Esto me parece un galimatías pseudoestadístico. Puede ser que lo que tenga en mente sea la distribución beta-binomial que es una forma de tener en cuenta una mayor variabilidad en la respuesta de lo que "debería" ocurrir con una binomial, pero es difícil de decir. La distribución beta-binomial no le resultaría familiar a alguien que sólo haya tomado un par de clases de estadística aplicada, pero no debería ser exótica para un profesor de estadística.

El resto de su argumento suena como un Efecto Dunning-Kruger a mí. Es cuando alguien sabe un poco sobre un tema, pero no es consciente de la amplitud y profundidad de las cuestiones o de las posibles advertencias y complicaciones, y por lo tanto piensa que el tema es fácil y obvio. La idea de que la mejor manera de pronosticar las elecciones es construir un simple modelo de regresión logística con las encuestas estatales es sorprendentemente ignorante.

4voto

Spirit keeper Puntos 31

La regresión logística se suele enseñar a los estudiantes de grado como una respuesta transformada: Tomar un número entre 0 y 1, convertirlo en logaritmo de probabilidades y ajustarlo a OLS. Eso es también lo que se hace para la regresión logística en algunas ciencias sociales. Dado que Nate hizo su licenciatura en economía, no sería raro que le hubieran enseñado este enfoque no-GLM.

1 votos

Nunca había utilizado este término así y dudo que Nate Silver utilice un enfoque de regresión logística tan "ingenuo". ¿Podría proporcionar alguna referencia que denomine este enfoque como regresión logística?

4 votos

Ciertamente, se puede tomar un número delimitado por 0&1 y transformarlo (por ejemplo, con el logaritmo de las probabilidades, u otra transformación) y luego ajustar un modelo OLS, pero eso no es regresión logística . Espero que en alguna parte no se enseñe a la gente que lo es.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X