20 votos

¿Cómo podemos juzgar la exactitud de las predicciones de Nate Silver?

En primer lugar, da la probabilidad de los resultados. Así, por ejemplo, su predicciones para las elecciones estadounidenses es actualmente 82% Clinton vs 18% Trump.

Ahora bien, aunque gane Trump, ¿cómo sé que no fue sólo el 18% de las veces que debería haber ganado?

El otro problema es que sus probabilidades cambian con el tiempo. Así, el 31 de julio era casi un 50-50 entre Trump y Clinton.

Mi pregunta es, dado que tiene una probabilidad diferente cada día para el mismo acontecimiento futuro con el mismo resultado, ¿cómo puedo medir lo acertado que fue cada día que hizo una predicción basándome en la información de que disponía hasta ese día?

16voto

icelava Puntos 548

Las previsiones probabilísticas (o, como también se conocen, las previsiones de densidad) pueden evaluarse utilizando reglas de puntuación es decir, funciones que asignan una previsión de densidad y un resultado observado a una denominada puntuación, que se minimiza en la expectativa si la previsión de densidad es realmente la verdadera densidad que se va a prever. Adecuado las reglas de puntuación son reglas de puntuación que se minimizan en la expectativa seulement por la verdadera densidad futura.

Existen bastantes reglas de puntuación adecuadas, empezando por Brier (1950, Resumen mensual del tiempo ) en el contexto de la previsión meteorológica probabilística. Czado et al. (2009, Biometría ) ofrecen una visión más reciente para el caso discreto. Gneiting y Katzfuss (2014, Revista anual de estadística y su aplicación ) dar una visión general de la previsión probabilística en general - Gneiting en particular ha sido muy activo en el avance de la causa de las reglas de puntuación adecuadas.

Sin embargo, las reglas de puntuación son algo difíciles de interpretar, y realmente sólo ayudan en comparando múltiples previsiones probabilísticas: la de menor puntuación es mejor. Hasta la variación de muestreo, es decir, por lo que siempre es mejor tener mucho de previsiones a evaluar, cuyas puntuaciones promediaríamos.

Cómo incluir la "actualización" de las previsiones de Silver o de otros es una buena pregunta. Podemos utilizar reglas de puntuación para comparar "instantáneas" de diferentes previsiones en un único momento, o incluso podríamos examinar las previsiones probabilísticas de Silver a lo largo del tiempo y calcular las puntuaciones en cada momento. Es de esperar que la puntuación sea cada vez más baja (es decir, que las previsiones de densidad sean cada vez mejores) cuanto más se acerque el resultado real.

13voto

Tony Toews Puntos 6387

En el libro de Nate Silver La señal y el ruido escribe lo siguiente, que puede aportar algunas ideas a su pregunta:

Una de las pruebas más importantes de una previsión -yo diría que es la más importante- se llama calibración. De todas las veces que dijiste que había un 40% de probabilidades de lluvia, ¿cuántas veces llovió realmente? Si, a la larga, realmente llovió un 40% de las veces, significa que sus previsiones estaban bien calibradas. Si, en cambio, acabó lloviendo sólo el 20% de las veces, o el 60% de las veces, no lo estaban.

Esto plantea algunas cuestiones. En primer lugar, como bien señalas, no se puede hacer ninguna inferencia sobre la calidad de una previsión por el resultado del acontecimiento que se está pronosticando. Lo mejor que se puede hacer es ver cómo funciona el modelo a lo largo de muchas predicciones.

Otra cosa en la que es importante pensar es que las predicciones que proporciona Nate Silver no son un acontecimiento en sí, sino la distribución de probabilidad del acontecimiento. Así, en el caso de las elecciones presidenciales, está estimando la distribución de probabilidad de que Clinton, Trump o Johnson ganen las elecciones. En este caso está estimando una distribución multinomial.

Pero en realidad está prediciendo la carrera a un nivel mucho más granular. Sus predicciones estiman las distribuciones de probabilidad del porcentaje de votos que cada candidato obtendrá en cada estado. Así, si consideramos 3 candidatos, esto podría caracterizarse por un vector aleatorio de longitud 51 * 3 y que toma valores en el intervalo [0, 1], sujeto a la restricción de que las proporciones sumen 1 para las proporciones dentro de un estado. El número 51 se debe a que hay otros 50 estados + D.C. (y de hecho creo que en realidad son unos cuantos más porque algunos estados pueden dividir sus votos del colegio electoral), y el número 3 se debe al número de candidatos.

Ahora bien, no tienes muchos datos con los que evaluar sus predicciones: sólo ha proporcionado predicciones para las 3 últimas elecciones que yo sepa (¿hubo más?). Así que no creo que haya forma de evaluar su modelo de forma justa, a menos que se tenga el modelo en la mano y se pueda evaluar usando datos simulados. Pero aún hay algunas cosas interesantes que se podrían analizar. Por ejemplo, creo que sería interesante ver la precisión con la que predijo las proporciones de voto estado por estado en un momento determinado, por ejemplo, a una semana de las elecciones. Si se repite para varios momentos, por ejemplo, a una semana, a un mes, a seis meses y a un año, se podría obtener una explicación bastante interesante de sus predicciones. Una advertencia importante: los resultados están muy correlacionados entre estados dentro de una misma elección, por lo que no se puede decir que se tengan 51 estados * 3 elecciones como instancias de predicción independientes (es decir, si el modelo subestima el rendimiento de los candidatos en un estado, tenderá a subestimarlo también en otros estados). Pero, de todas formas, yo me lo plantearía así, para tener datos suficientes con los que hacer algo significativo.

6voto

AdamSane Puntos 1825

Para una sola predicción no se puede, igual que no podemos saber si la afirmación "esta moneda tiene un 60% de probabilidades de salir cara" está cerca de ser correcta a partir de un solo lanzamiento.

Sin embargo, se puede evaluar su metodología a través de muchas predicciones: para una elección determinada hace muchas predicciones, no sólo de la carrera presidencial en general, sino muchas predicciones relacionadas con el voto para el presidente y de muchas otras carreras (cámara, senado, gobierno, etc.), y también utiliza metodologías muy similares a lo largo del tiempo.

Hay muchas formas de realizar esta evaluación (algunas bastante sofisticadas), pero podemos fijarnos en algunas relativamente sencillas para hacernos una idea. Por ejemplo, podría dividir las predicciones de la probabilidad de victoria en bandas de, por ejemplo, (50-55%, 55-65%, etc.) y ver qué proporción de las predicciones de cada banda se cumplieron; la proporción de predicciones del 50-55% que se cumplieron debería situarse entre el 50-55%, en función de la media (más un margen de variación aleatoria*).

Así, con este enfoque (u otros) se puede ver si la distribución de los resultados fue coherente con las predicciones a lo largo de una elección, o a lo largo de varias elecciones (si no recuerdo mal, creo que sus predicciones han sido más a menudo correctas de lo que deberían haber sido, lo que sugiere que sus errores estándar han sido, de media, ligeramente sobreestimados).

* Sin embargo, tenemos que tener cuidado a la hora de evaluarlo, porque las predicciones no son independientes.

-5voto

user219442 Puntos 11

Historial. Cuando predices unas elecciones hay dos resultados, ganar o perder. Si predice por debajo del 50% una victoria de Trump y Trump gana, está equivocado .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X