7 votos

¿Cómo saber si una predicción estadística es correcta?

El pronóstico del tiempo de predecir la probabilidad de que llueva o no por algunos días. Si pudiera repetir el mismo día en que muchas veces podría contar cuántas veces llueve o no, así que me podría comparar con la predicción para saber si la predicción fue correcta.

El hecho es que no es posible repetir un día, el único dato que tengo es el correspondiente predicciones para diferentes días y sólo un punto en la distribución para cada una de las predicciones.

Así que, ¿cómo podía yo saber si las probabilidades para el pronóstico del tiempo es correcta?

Esta pregunta puede ser extendido a cualquier predicción en los que no puede repetir los fenómenos muchas veces para obtener una distribución completa y verificar la predicción.

4voto

catalpa Puntos 723

"A esta pregunta puede ser extendida ..." - eso es absolutamente correcto. Pero, por supuesto, si usted quiere a paso todo el camino de vuelta, ese es el caso para cada fenómeno. Cada vez que se lanza una moneda, se pone un poco abollada, y cambios en la probabilidad de que salga cara. Cada vez que se dispara una cesta, sus brazos son un poco más cansada (o un poco más descansada) y la probabilidad de que la bola va en son sólo un poco diferente.

Como aplicar el estadístico, una enorme parte de su trabajo está tratando de determinar qué eventos son similares suficiente para ser considerado como el mismo. Usted nunca tendrá un montón de personas que están tomando medicamentos, o un grupo de estudiantes que se prueba, o un montón de ciudades de la ejecución de las políticas, que son exactamente el mismo. Gran parte de la carne de su trabajo consiste en tratar de determinar qué control para que, cuando termine, son similares suficiente para darle de nuevo una significativa respuesta.

Cuando se trata de predicciones, lo mejor que puedes hacer es tratar de tren, y luego de la prueba, en las cosas que creo que son suficientemente similares. El punto entero de la validación cruzada es examinar cómo internamente consistente de los datos y el modelo. Si usted puede entrenar en algunos, y predecir con precisión en el resto, con una sólida interpretación es que los dos conjuntos de datos son "similares suficiente." (Suponiendo que fuera el otro enorme parte, que su modelo es correcto.) Así que para los datos observados, se puede evaluar la exactitud de predicción con la validación cruzada.

Pero por lo invisible futuro, la mejor respuesta a su pregunta es "Para las predicciones son correctas, tienes que asumir que el tiempo de mañana se extrae de la misma distribución que todo el tiempo en el que el modelo predictivo se ajuste." Y cualquier pregunta de cómo de cerca se vuelve dependiente de un modelo en particular, y de la preferencia.

2voto

Mustafa M. Eisa Puntos 101

Esta es una excelente pregunta y una común así. La propiedad que parecen estar interesados en que se ergodicity. Si un proceso estocástico que le interesa es ergodic, entonces (aproximadamente) de estos "diferentes" día de las observaciones que se ven pueden ser combinados para evaluar el éxito de las predicciones meteorológicas son; pueden ser combinados para obtener la convergencia de los resultados. Si el proceso no se presentan ergodicity, sin embargo, que-como se dijo -, será necesario observar el mismo día varias veces y ver si esta probabilidad de lluvia es exacta o no. Ergodicity es difícil de verificar con datos reales y típicamente se toma como una suposición.

Para un trabajo riguroso, pero el tratamiento empírico de ergodicity, echa un vistazo a este capítulo de E. Zivot de la serie de tiempo del libro. Para un muy buen intuitiva ejemplo, mira este video a partir de las 16:55.

0voto

Mohammed Nafie Puntos 23

Serie de tiempo de la econometría se ocupa con una pregunta similar: Si $y_t$ $x_t$ son variables de series temporales, debe confiar en una regresión lineal con dos variables? La respuesta es "depende".

Esto depende de si la relación observada entre las dos variables seguiría siendo cierto en el futuro. Si $y_t$ $x_t$ son no-estacionarias, a continuación, la relación observada puede romperse en el futuro. Si $y_t$ $x_t$ son fijos, entonces la relación observada debe mantener en el futuro.

He aquí un ejemplo simulado. Las variables, $x_t$$y_t$, son no estacionarias por diseño. Aunque el modelo de regresión dice que la relación observada es fuerte (basado en el valor de p y $R^2$), el fuera-de-tiempo $R^2$ es horrible (el modelo es mucho peor que el uso de la media como una predicción).

### create two non-stationary variables
set.seed(12345)

x <- 100 + cumsum(rnorm(1000))

y <- 200 + cumsum(rnorm(1000))

df <- data.frame(y=y, x=x)

### split between training and test

train <- df[1:800, ]  ## 80% train
test <- df[801:1000, ] ## 20% train

### linear regression

lm.mod <- lm(y~x, data=train)

summary(lm.mod)

### measure fit

library(caret)

in.sample.R2 <- R2(lm.mod$fitted.values, train$y, formula="traditional")
out.sample.R2 <- R2(predict(lm.mod, newdata=test), test$y, formula="traditional")

in.sample.R2
out.sample.R2

TLDR; Predecir el futuro es difícil. Regresión lineal utilizando datos de series de tiempo puede ser muy engañosa. Hold-algunos de tus datos basados en el tiempo secuenciales (por ejemplo, en la última 9 cuartas partes de su tiempo de la serie). Validar el modelo a través de la retención de datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X