12 votos

Podemos hacer probabilístico declaraciones con intervalos de predicción?

He leído a través de los muchos excelentes discusiones en el sitio con respecto a la interpretación de los intervalos de confianza e intervalos de predicción, sino un concepto todavía es un poco desconcertante:

Considere la posibilidad de la OLS marco y hemos obtenido el modelo ajustado $\hat y = X\hat\beta$. Se nos da un $x^*$ y preguntó a predecir su respuesta. Calculamos el $x^{*T}\hat\beta$ y, como un bono, también ofrecemos un 95% de intervalo de predicción alrededor de nuestra predicción, a la Obtención de una fórmula para la predicción de los límites de un modelo lineal. Vamos a llamar a esta predicción intervalo de PI.

Ahora, ¿cuál de los siguientes (o ninguno) es la interpretación correcta de la PI?

  1. Para$x^*$, en particular, $y(x^*)$ se encuentra dentro de PI con un 95% de probabilidad.
  2. Si tenemos un gran número de $x$s, este procedimiento para calcular PIs cubrirá el verdadero respuestas 95% del tiempo.

Desde @gung la redacción de la regresión Lineal de predicción de intervalo, parece que lo anterior es cierto (aunque podría muy bien ser la interpretación errónea.) Interpretación 1 parece contrario a la intuición para mí (en el sentido de que estamos dibujo Bayesiano conclusiones a partir del análisis frecuentista), pero si es correcto, es porque estamos en la predicción de la realización de una variable aleatoria vs la estimación de un parámetro?

(Edit) Bono de la pregunta: Supongamos que sabía lo que es el verdadero $\beta$, es decir, el proceso de generación de los datos, entonces deberíamos ser capaces de hablar acerca de las probabilidades con respecto a cualquier particular, la predicción, ya que sólo nos fijamos en $\epsilon$?

Mi último intento: se puede "conceptualmente descomponer" (el uso de la palabra muy libremente) en un intervalo de predicción en dos partes: (A) un intervalo de confianza alrededor de la predicción de la respuesta media, y (B) una colección de intervalos que son sólo cuantil rangos del término de error. (B) podemos hacer probabilístico declaraciones, condicional en el conocimiento de la verdad predijo que decir, pero como un todo, sólo podemos tratar intervalos de predicción como frecuentista de la Cei en torno a los valores de la predicción. Es esto algo correcto?

34voto

Carl Puntos 175

La segunda es mejor. La primera depende de qué otra información es conocida.

Utilizando una muestra aleatoria de ejemplo, es cierto que "el 95% de los intervalos (95% de confianza) incluiría la verdadera media de [insertar variable]".

Por otro lado, si un resultado es, obviamente, contra-intuitivo, no podemos afirmar (1).

E. g., "mi significación de la prueba al 95% de confianza muestra que la altura y el peso están negativamente correlacionados". Bueno, eso es obviamente falso, y nosotros no podemos decir que hay una "probabilidad del 95% que es cierto". Hay, de hecho, tomando en consideración el conocimiento previo, una probabilidad muy pequeña de que es cierto. Es, sin embargo, válido decir que "el 95% de esas pruebas se habría producido un resultado correcto."

5voto

Eero Puntos 1612

En primer lugar, en el uso de la palabra probabilidad, frequentists no tiene un problema con el uso de la palabra probabilidad a la hora de predecir algo donde el azar que la pieza no ha tenido lugar todavía. No nos gusta la palabra probabilidad de que un intervalo de confianza ya que el verdadero parámetro no está cambiando (estamos suponiendo que es un fijo, aunque desconocido, valor) y el intervalo es fijo porque se basa en datos que ya hemos recogido. Por ejemplo, si nuestros datos provienen de una muestra aleatoria de machos adultos de los seres humanos y x es su altura y su peso y el ajuste general del modelo de regresión, a continuación, no utilizamos la probabilidad de que al hablar acerca de los intervalos de confianza. Pero si quiero hablar acerca de lo que es la probabilidad de que un 65 pulgadas de altura masculino elegido al azar de entre todas las 65 pulgadas de altura varones que tienen un peso dentro de un cierto intervalo, entonces es correcto uso de la probabilidad en ese contexto (debido a la selección aleatoria todavía no se ha hecho, por lo que la probabilidad de sentido).

Así que yo diría que la respuesta a la pregunta de la prima es "Sí". Si supiéramos la información suficiente, entonces podríamos calcular la probabilidad de ver una y valor dentro de un intervalo (o encontrar un intervalo con una probabilidad).

Para su declaración de la etiqueta "1." Yo diría que está bien si el uso de una palabra como "aproximado" al hablar sobre el intervalo o de probabilidad. Como usted menciona en el bono de la pregunta, podemos descomponer la incertidumbre en una pieza sobre el centro de la predicción y una pieza acerca de la aleatoriedad en torno a la media real. Cuando combinamos estos para cubrir todas nuestras incertidumbre (y suponiendo que tenemos el modelo/la normalidad correcta) tenemos un intervalo que tiende a ser demasiado amplia (aunque puede ser demasiado estrecho así), por lo que la probabilidad de un nuevo punto elegido al azar caiga en el intervalo de predicción es que no va a ser exactamente el 95%. Usted puede ver esto por la simulación. Comience con una conocida modelo de regresión con todos los parámetros conocidos. Elija una muestra (a través de muchos valores de x) a partir de esta relación, el ajuste de una regresión, y calcular el intervalo de predicción(s). Ahora generar un gran número de nuevos puntos de datos desde el modelo verdadero de nuevo y se les compara con los intervalos de predicción. Hice esto un par de veces usando el siguiente código R:

x <- 1:25
y <- 5 + 3*x + rnorm(25, 0, 5)
plot(x,y)

fit <- lm(y~x)
tmp <- predict(fit, data.frame(x=1:25), interval='prediction')

sapply( 1:25, function(x){ 
    y <- rnorm(10000, 5+3*x, 5)
    mean( tmp[x,2] <= y & y <= tmp[x,3] )
})

Me encontré con el código de arriba un par de veces (alrededor de 10, pero yo no mantener un cuidadoso recuento) y la mayoría del tiempo la proporción de los nuevos valores de la caída en los intervalos que se extendieron en el 96% a 98%. Yo tengo un caso en el que la desviación estándar estimada fue muy baja que las proporciones fueron del 93% a 94% de la gama, pero todos los demás estaban por encima de 95%. Entonces yo sería feliz con su declaración de 1 con el cambio a "aproximadamente el 95%" (asumiendo que todas las hipótesis son verdaderas, o lo suficientemente cerca como para ser cubierto en aproximadamente).

Del mismo modo, la declaración de 2 necesita un "aproximadamente" o similares, ya que para cubrir nuestra incertidumbre estamos capturando, en promedio, más de un 95%.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X