135 votos

Diferencia entre intervalos de confianza e intervalos de predicción

Para un intervalo de predicción en regresión lineal se sigue utilizando $\hat{E}[Y|x] = \hat{\beta_0}+\hat{\beta}_{1}x$ para generar el intervalo. También se utiliza para generar un intervalo de confianza de $E[Y|x_0]$ . ¿Cuál es la diferencia entre ambos?

17 votos

$\hat{E}[Y|x] = \hat{\beta_0}+\hat{\beta}_{1}x$ no "genera el intervalo".

0 votos

No veo la razón de la divergencia entre los dos métodos en ninguna de las respuestas anteriores. Los resultados de la regresión se estiman normalmente sobre la base de los parámetros paramétricos de la distribución t de Student y, por lo general, la regresión, especialmente de los modelos de regresión mal ajustados a los datos, conduce a residuos que no están estudiados, por ejemplo, sesgados, pero especialmente con colas pesadas, lo que normalmente (si no siempre) hace que las medidas paramétricas de la dispersión de los datos sean mayores que sus correspondientes cuantiles medidos anticipadamente. Una regla general que he encontrado útil: Si veo residuos con valores atípicos, colas largas y u

0 votos

142voto

simmosn Puntos 304

Su pregunta no es del todo correcta. Un intervalo de confianza da un rango para $\text{E}[y \mid x]$ como tú dices. Un intervalo de predicción da un rango para $y$ mismo. Naturalmente, nuestra mejor suposición para $y$ es $\text{E}[y \mid x]$ para que los intervalos se centren en el mismo valor, $x\hat{\beta}$ .

Como dice @Greg, los errores estándar van a ser diferentes: suponemos el valor esperado de $\text{E}[y \mid x]$ con más precisión de lo que estimamos $y$ mismo. Estimación de $y$ requiere incluir la varianza que proviene del término de error verdadero.

Para ilustrar la diferencia, imaginemos que podemos obtener estimaciones perfectas de nuestro $\beta$ coeficientes. Entonces, nuestra estimación de $\text{E}[y \mid x]$ sería perfecto. Pero todavía no estaríamos seguros de qué $y$ en sí mismo era porque hay un verdadero término de error que tenemos que considerar. Nuestro "intervalo" de confianza sería sólo un punto porque estimamos $\text{E}[y \mid x]$ exactamente, pero nuestro intervalo de predicción sería más amplio porque tenemos en cuenta el verdadero término de error.

Por lo tanto, un intervalo de predicción será más amplio que un intervalo de confianza.

106voto

hellohellosharp Puntos 130

Una es una predicción de una observación futura, y la otra es una respuesta media predicha. Voy a dar una respuesta más detallada para explicar la diferencia y de dónde viene, así como cómo esta diferencia se manifiesta en intervalos más amplios para la predicción que para la confianza.

Este ejemplo puede ilustrar la diferencia entre los intervalos de confianza y de predicción: supongamos que tenemos un modelo de regresión que predice el precio de las casas en función del número de habitaciones, el tamaño, etc. Hay dos tipos de predicciones que podemos hacer para un determinado $x_0$ :

  1. Podemos predecir el precio de una determinada vivienda nueva que sale al mercado con unas características $x_0$ ( "cuál es el precio previsto para esta casa $x_0$ ?" ). Su verdadero precio será $$y = x_0^T\beta+\epsilon$$ . Desde $E(\epsilon)=0$ el precio previsto será $$\hat{y} = x_0^T\hat{\beta}$$ Al evaluar la varianza de esta predicción, tenemos que incluir nuestra incertidumbre sobre $\hat{\beta}$ así como nuestra incertidumbre sobre nuestra predicción (el error de nuestra predicción), por lo que debe incluir la varianza de $\epsilon$ (el error de nuestra predicción). Esto se suele llamar predicción de un valor futuro .

  2. También podemos predecir el precio medio de una vivienda con características $x_0$ ( "¿cuál sería el precio medio de una casa con características $x_0$ ?" ). La estimación puntual sigue siendo $$\hat{y} = x_0^T\hat{\beta}$$ pero ahora sólo la varianza en $\hat{\beta}$ necesita ser contabilizado. Esto se llama normalmente predicción de la respuesta media.

La mayoría de las veces, lo que realmente queremos es el primer caso. Sabemos que $$var(x_0^T\hat{\beta}) = x_0^T(X^TX)^{-1}x_0\sigma^2$$

Esta es la varianza para nuestra respuesta media (caso 2). Pero, para una predicción de una observación futura (caso 1), recordemos que necesitamos la varianza de $x_0^T\hat{\beta} + \epsilon$ ; $\epsilon$ tiene una varianza $\sigma^2$ y se supone que es independiente de $\hat{\beta}$ . Utilizando un poco de álgebra sencilla, se obtienen los siguientes intervalos de confianza:

  1. CI para una única respuesta futura para $x_0$ : $$\hat{y}_0\pm t_{n-p}^{(\alpha/2)}\hat{\sigma}\sqrt{x_0^T(X^TX)^{-1}x_0 + 1}$$

  2. CI para la respuesta media dada $x_0$ : $$\hat{y}_0\pm t_{n-p}^{(\alpha/2)}\hat{\sigma}\sqrt{x_0^T(X^TX)^{-1}x_0}$$

Dónde $t_{n-p}^{\alpha/2}$ es un estadístico t con $n-p$ grados de libertad en el $\alpha/2$ cuantil.

Esperemos que esto aclare un poco más por qué el intervalo de predicción es siempre más amplio, y cuál es la diferencia subyacente entre los dos intervalos. Este ejemplo fue adaptado de Faraway, Linear Models with R, Sec. 4.1.

12 votos

Es agradable ver que un viejo hilo mejora considerablemente con una respuesta clara y reflexiva. ¡Bienvenido a nuestro sitio!

0 votos

¿No debería ser ...x0 + 1/n +1 (para el intervalo de predicción (1)), y ...x0 + 1/n (para el intervalo de confianza (2)_? www2.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf real-statistics.com/regression/

0 votos

@jpgard ¿La diferencia formal es, por tanto, sólo el resultado de E(eps) = 0?

64voto

Eero Puntos 1612

La diferencia entre un intervalo de predicción y un intervalo de confianza es el error estándar.

El error estándar de un intervalo de confianza sobre la media tiene en cuenta la incertidumbre debida al muestreo. La línea que ha calculado a partir de su muestra será diferente de la línea que se habría calculado si tuviera toda la población, el error estándar tiene en cuenta esta incertidumbre.

El error estándar de un intervalo de predicción sobre una observación individual tiene en cuenta la incertidumbre debida al muestreo como en el caso anterior, pero también tiene en cuenta la variabilidad de los individuos en torno a la media predicha. El error estándar del intervalo de predicción será más amplio que el del intervalo de confianza y, por tanto, el intervalo de predicción será más amplio que el intervalo de confianza.

60voto

Dan Puntos 12178

Me ha resultado útil la siguiente explicación:

Intervalos de confianza te dice lo bien que has determinado la media. Supongamos que los datos son realmente una muestra aleatoria de una distribución gaussiana. Si haces esto muchas veces, y calculas un intervalo de confianza de la media de cada muestra, se esperaría un 95 % de esos intervalos incluyan el verdadero valor de la media de la población. de la población. El punto clave es que el intervalo de confianza le indica la ubicación probable del verdadero parámetro poblacional.

Intervalos de predicción le indican dónde puede esperar ver el siguiente punto de datos muestreado. Supongamos que los datos se muestrean realmente de forma aleatoria de una distribución gaussiana. Recoge una muestra de datos y calcula una intervalo de predicción. A continuación, muestree un valor más de la población. Si se hace esto muchas veces, se espera que el siguiente valor esté dentro de El punto clave es que el intervalo de predicción indica que el valor de la población se encuentra dentro del intervalo de predicción. el intervalo de predicción te habla de la distribución de los valores, no la incertidumbre en la determinación de la media de la población.

Los intervalos de predicción deben tener en cuenta tanto la incertidumbre de conocer el valor de la media de la población, además de la dispersión de los datos. Por tanto, un intervalo de predicción es siempre más amplio que un intervalo de confianza.

Fuente: http://www.graphpad.com/support/faqid/1506/

0 votos

¿Qué diablos se entiende aquí por "dispersión de datos"?

8 votos

@tel: Obviamente, la varianza

0 votos

Entonces, ¿cuándo converge el intervalo de predicción al intervalo de confianza más estrecho? ¿Cuando no hay ruido en los datos (correlación perfecta)?

16voto

pablo_sci Puntos 11

Respuesta corta:

A intervalo de predicción es un intervalo asociado a una variable aleatoria aún no observada (previsión).

A intervalo de confianza es un intervalo asociado a un parámetro y es un concepto frecuentista.

Comprobar la respuesta completa aquí de Rob Hyndman, el creador del paquete de previsión en R.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X