En el libro de Nate Silver La señal y el ruido escribe lo siguiente, que puede aportar algunas ideas a su pregunta:
Una de las pruebas más importantes de una previsión -yo diría que es la más importante- se llama calibración. De todas las veces que dijiste que había un 40% de probabilidades de lluvia, ¿cuántas veces llovió realmente? Si, a la larga, realmente llovió un 40% de las veces, significa que sus previsiones estaban bien calibradas. Si, en cambio, acabó lloviendo sólo el 20% de las veces, o el 60% de las veces, no lo estaban.
Esto plantea algunas cuestiones. En primer lugar, como bien señalas, no se puede hacer ninguna inferencia sobre la calidad de una previsión por el resultado del acontecimiento que se está pronosticando. Lo mejor que se puede hacer es ver cómo funciona el modelo a lo largo de muchas predicciones.
Otra cosa en la que es importante pensar es que las predicciones que proporciona Nate Silver no son un acontecimiento en sí, sino la distribución de probabilidad del acontecimiento. Así, en el caso de las elecciones presidenciales, está estimando la distribución de probabilidad de que Clinton, Trump o Johnson ganen las elecciones. En este caso está estimando una distribución multinomial.
Pero en realidad está prediciendo la carrera a un nivel mucho más granular. Sus predicciones estiman las distribuciones de probabilidad del porcentaje de votos que cada candidato obtendrá en cada estado. Así, si consideramos 3 candidatos, esto podría caracterizarse por un vector aleatorio de longitud 51 * 3 y que toma valores en el intervalo [0, 1], sujeto a la restricción de que las proporciones sumen 1 para las proporciones dentro de un estado. El número 51 se debe a que hay otros 50 estados + D.C. (y de hecho creo que en realidad son unos cuantos más porque algunos estados pueden dividir sus votos del colegio electoral), y el número 3 se debe al número de candidatos.
Ahora bien, no tienes muchos datos con los que evaluar sus predicciones: sólo ha proporcionado predicciones para las 3 últimas elecciones que yo sepa (¿hubo más?). Así que no creo que haya forma de evaluar su modelo de forma justa, a menos que se tenga el modelo en la mano y se pueda evaluar usando datos simulados. Pero aún hay algunas cosas interesantes que se podrían analizar. Por ejemplo, creo que sería interesante ver la precisión con la que predijo las proporciones de voto estado por estado en un momento determinado, por ejemplo, a una semana de las elecciones. Si se repite para varios momentos, por ejemplo, a una semana, a un mes, a seis meses y a un año, se podría obtener una explicación bastante interesante de sus predicciones. Una advertencia importante: los resultados están muy correlacionados entre estados dentro de una misma elección, por lo que no se puede decir que se tengan 51 estados * 3 elecciones como instancias de predicción independientes (es decir, si el modelo subestima el rendimiento de los candidatos en un estado, tenderá a subestimarlo también en otros estados). Pero, de todas formas, yo me lo plantearía así, para tener datos suficientes con los que hacer algo significativo.