Estoy leyendo el artículo Soy un profesor de estadísticas. Por eso el modelo de Nate Silver estaba en el aire en un sitio web de noticias (no en una publicación académica).
El autor (Dale Rosenthal, profesor clínico adjunto de finanzas de la Universidad de Illinois en Chicago) trata de articular una crítica a la modelización de las elecciones presidenciales de Nate Silver. Su primer punto tiene que ver con la formulación del modelo:
538 debería modelar la raza de cada estado con un modelo lineal generalizado un modelo lineal generalizado: un modelo multinomial para estimar las probabilidades de que Clinton, Trump, Johnson, McMullin y Stein ganen cada uno ese estado o un modelo binomial de enlace logístico para Trump contra Clinton. Estos modelos fueron creados para este tipo de escenarios. Es un poco de trabajo de trabajo utilizarlos: hay que introducir el número de encuestados a favor de de cada candidato en lugar de limitarse a introducir los porcentajes indicados. Sin embargo, eso tendría la ventaja añadida de no confiar en ninguna de las afirmaciones de incertidumbre de las encuestas.
Aunque Nate Silver no lo detalla en su sitio, parece ser usando una regresión lineal o una regresión logística. Dado que la regresión logística es una mejor opción, voy a asumir que está usando eso. Algunas personas pueden confundir la regresión logística y un MLG binomial con una logística [Nota del OP: creo que quiere decir logit] enlace, pero no son lo mismo. La diferencia está en cómo manejan la incertidumbre de los eventos inusuales (es decir, la probabilidad derrumbes). Esto se debe a que un binomio [Nota del OP: creo que se refiere a bernoulli] variable aleatoria con probabilidad de éxito p tiene una varianza de p*(1-p). En otras palabras: una carrera que está casi empatada es mucho más sensible a todas las entradas que que una carrera que probablemente sea un éxito rotundo. Por ejemplo, Reagan tendría que que meter la pata hasta el fondo para perder contra Mondale, mientras que una una pequeña metedura de pata de W podría haber dado la victoria a Gore.
Un GLM binomial con un enlace logístico se construye para ese tipo de variación en la sensibilidad. La regresión logística no está construida para manejar eso. Debido a que la regresión logística no maneja esa variación en sensibilidad, tiende a estar sesgada para los eventos que se estima que son que se estima que son raros. Dado que la mayoría de las encuestas y metaencuestas estiman que una victoria de Trump muy improbable, esto sugiere que la forma del modelo de Silver probablemente sesgar sus resultados.
Siempre pensé que estaba haciendo una "regresión logística" cuando invocaba el MLG: glm(formula, family=binomial(link = "logit"))
. Pero el autor parece tener algo diferente en mente.
Preguntas un poco relacionadas:
- Resultados de las elecciones estadounidenses de 2016: ¿Qué ha fallado en los modelos de predicción?
- ¿Cuál es la diferencia entre la regresión logística y la regresión logit?
Parece que lo que el autor intenta decir es que los recuentos de votos deberían modelarse como variables aleatorias binomiales en lugar de los resultados estatales como variables aleatorias bernoulli. ¿Es correcta esa interpretación, o qué es exactamente lo que intenta decir el autor?
5 votos
Ese autor debe tener una definición de "regresión logística" diferente a la mía. ¿Escribirle y preguntarle?
5 votos
Estoy de acuerdo con @kjetilbhalvorsen. Además, todo el argumento no me parece muy convincente. El autor parece decir "No sé qué metodología utilizaron, pero si usaran la que yo enseño en Stats 101, entonces acertarían" -- es tan fácil hacer tales juicios post factum ... ¿Por qué no produjo sus previsiones antes de la elección y la publicó? Si lees algunas cosas que escribió Nate Silver, te darás cuenta de que él conoce de lo que está hablando y sabe lo que es la regresión logística...
0 votos
@Tim: Sí. Otra cosa, este autor encuentra un problema particular con el enfoque de Nate Silverss, que asume una alta probabilidad imposible para una victoria de Trump, por lo que debe ser malo ...