He tratado de entender las diferencias. Para que quede claro, yo piense en Entiendo que las dos fuentes de variación en la predicción provienen de la variación en la distribución del ubicación de Y y en variación de Y. Lo que no entiendo es, por qué ¿no utilizamos la estimación de la respuesta media (como en la estimación) sino que utilizamos el resultado individual de Y (por tanto, las dos variaciones) en la predicción? O dicho de otro modo, ¿por qué en la estimación no consideramos la variación en la distribución de la ubicación de Y? ¿Es porque Y es un rv en la predicción? Si es así, ¿por qué Y no es rv en la estimación?
Respuestas
¿Demasiados anuncios?La diferencia entre el intervalo de confianza para la respuesta media y el intervalo de predicción es sutil pero importante. Lo explicaré primero y luego te proporcionaré una intuición gráfica que me ayudó mucho cuando aprendí esto.
Obviamente, hay un componente de error en nuestra predicción. Según el modelo de probabilidad normal, la predicción se distribuye normalmente en torno a la respuesta media. El problema es que la respuesta media es una variable aleatoria que también tiene un componente de error asociado . Dada una muestra de tamaño $N$ tendremos una estimación de la respuesta media: el intervalo de confianza describe dónde esperaríamos encontrar la respuesta media si hubiéramos construido nuestro modelo utilizando diferentes muestras de tamaño $N$ de nuestra población. Por lo tanto, hay un límite superior e inferior en el que esperamos encontrar la respuesta media, y la distribución de nuestras predicciones podría ser centrado en cualquier lugar entre estos límites. Así pues, el intervalo de predicción contiene el intervalo de confianza para la respuesta media, con una cola añadida a cada extremo del intervalo para abarcar el error que esperaríamos para una predicción si la respuesta media estuviera fija en ese lugar (que no lo está).
Concretemos esto con un ejemplo. Digamos que para algún nivel de $X$ nuestro modelo predice una respuesta media de 0 con varianza unitaria (es decir, la respuesta media se distribuye según la normal estándar).
Una preducción dada se distribuye con una media igual a la respuesta media, por lo que si sólo estamos considerando valores dentro de un intervalo de confianza del 95%, la distribución de nuestra predicción podría estar centrada tan a la izquierda como el límite inferior del IC o tan a la derecha como el límite superior del IC.
Entonces podemos intuir gráficamente que el intervalo de predicción viene dado por el límite inferior dado cuando anticipamos que la respuesta media se sitúa en el extremo inferior y el límite superior encontrado cuando anticipamos que la respuesta media se sitúa en el extremo superior.
Este ejemplo se inspira en la figura 2.5 (p. 58) de Modelos estadísticos lineales aplicados por Kutner, Nachsteim, Neter y Li.
Código utilizado para este ejemplo, para la posteridad:
xv=seq(from=-5,to=5, length.out=1e4)
plot(xv, dnorm(xv), type='l', xlim=c(-5,5), main="95% CI for the Mean Response")
abline(v=0)
abline(v=qnorm(.975), lty=2)
abline(v=-qnorm(.975), lty=2)
plot(xv, dnorm(xv), xlim=c(-5,5), type='n', main="Distribution of predictions given mean \nresponse is located at extremes of CI")
abline(v=qnorm(.975), col="blue")
abline(v=-qnorm(.975), col="blue")
abline(v=0, col="blue", lty=2)
lines(xv, dnorm(xv, qnorm(.975)), col='blue')
lines(xv, dnorm(xv, -qnorm(.975)), col='blue')
abline(v=2*(-qnorm(.975)), lty=2, col='blue')
abline(v=2*(qnorm(.975)), lty=2, col='blue')
plot(xv, dnorm(xv), xlim=c(-5,5), type='l', main="95% CI vs. 95% Prediction Interval")
lines(xv, dnorm(xv,0,2), col="blue")
abline(v=0)
abline(v=qnorm(.975), lty=2)
abline(v=-qnorm(.975), lty=2)
abline(v=2*(-qnorm(.975)), lty=2, col='blue')
abline(v=2*(qnorm(.975)), lty=2, col='blue')
He aquí un intento de responder a mi propia pregunta.
Permítame pruebe con responder a esta pregunta en términos de "regresión simple".
En la regresión, se tienen observaciones (X) y respuestas (Y). Cada Se supone que Y tiene una distribución normal y se quiere estimar la media de esta Y, es decir, E(Y|x), a veces también denominada respuesta media .
Digamos que Y_hat da esto estimación utilizando métodos de mínimos cuadrados (es decir, las betas se estiman utilizando mínimos cuadrados). Ahora bien, sabemos que sólo tenemos una muestra, es decir, que para una muestra diferente pero con un mismo nivel de X, se pueden tener diferentes Y_hat. Así que hay una varianza inherente en Y_hat de muestra a muestra. Esta varianza se conoce como error estándar, que tiene en cuenta que sólo tenemos una muestra, por lo que el intervalo de confianza utiliza este error estándar. Por lo tanto, el intervalo de confianza utiliza este error estándar,
ahora, utilizamos la misma ecuación para predecir una nueva observación X(nueva). La diferencia entre ambos radica en que, en el intervalo de confianza, estimamos la respuesta media E(Y|x), que es un parámetro. En la predicción, sin embargo, intentamos estimar (predecir) un valor real (individual) de Y, que es una variable aleatoria. Al hacer esto, hay dos fuentes de variación. La primera variación tiene en cuenta la variación de Y|x (que a veces puede considerarse como ubicación y tiene una distribución) y la segunda variación es la en variación (piénsese que una vez determinada la ubicación), que ya calculamos al construir el IC, es decir, esto capta la variación de la respuesta media E(y|x), la función de regresión.
Por ello, el intervalo de predicción es más amplio que el IC, ya que tiene en cuenta dos variabilidades. Este cálculo de la variación es la única diferencia entre CI y PI.
Por lo tanto, hay que tener en cuenta tres cosas importantes:
- Para cada Y, existe una distribución para cada nivel de X ( un supuesto de regresión).
- En CI, estimamos E(Y|x) y construimos un intervalo alrededor de él y es un parámetro.
- En PI, estimamos Y|x real y es una variable aleatoria.
Buena pregunta con una importante diferencia. El intervalo de confianza y el intervalo de predicción representan dos ideas diferentes.
El Intervalo de confianza explica cuánta variación podría ser posible con un determinado modelo. Después de una regresión, dados los errores normales aleatorios, el real La línea de regresión podría ser diferente de lo que estimamos. Esto se calcula a partir del SE, y se representa mediante un intervalo de confianza. Esencialmente, estamos dando la incertidumbre para $E[Y]$ . Por lo tanto, es una banda alrededor de nuestra estimación que da una idea de la certeza del modelo. Si las bandas son grandes (SE grande), ¡el modelo podría ser inútil!
El Intervalo de predicción tiene como objetivo señalar la incertidumbre en $E[Y|X]$ . Es decir, hemos medido todos los valores de nuestro modelo y hemos predicho el resultado, $Y$ . ¿Cuál es la incertidumbre de esta estimación concreta? Lógicamente, el error debería ser mayor que el intervalo de confianza. El cálculo se basa en los cuantiles de la estimación de la varianza del SE.
Para establecer un vínculo entre ambos. Si tomamos 100 muestras del mismo punto (100 muestras de $E[Y|X]$ esperamos que se distribuyan mayoritariamente dentro del intervalo de predicción. Sin embargo, esperamos que su media esté dentro del intervalo de confianza.