44 votos

La comprensión de la forma y el cálculo de las bandas de confianza en la regresión lineal

Estoy tratando de entender el origen de la curva en forma de bandas de confianza asociado con un MCO de la regresión lineal y cómo se relaciona con los intervalos de confianza de los parámetros de regresión (pendiente y la ordenada al origen), por ejemplo (con R):

require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)

enter image description here

Parece que la banda está relacionada con los límites de las líneas calculado con el 2,5% de la intersección, y el 97.5% de pendiente, así como con el 97.5% de intercepción, y el 2.5% de pendiente (aunque no del todo):

xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))

enter image description here

Lo que no entiendo son dos cosas:

  1. ¿Qué acerca de la combinación de un 2,5% de la pendiente de 2,5% interceptar así como el 97,5% de pendiente y el 97,5% de intercepción? Estos dan líneas que están claramente fuera de la banda de trazados anteriormente. Tal vez no entiendo el significado de un intervalo de confianza, pero si en el 95% de los casos mis estimaciones están dentro del intervalo de confianza, estos parecen como un posible resultado?
  2. Lo que determina la distancia mínima entre el límite superior e inferior (es decir, cerca del punto donde las dos líneas se añade por encima de la intercepción)?

Supongo que ambas preguntas surgen porque no sé/comprender cómo estas bandas son realmente calculado.

¿Cómo puedo calcular los límites superior e inferior utilizando los intervalos de confianza de los parámetros de regresión (sin depender de predecir() o una función similar, es decir, con la mano)? Traté de descifrar el predecir.lm función en R, pero la codificación es más allá de mí. Agradecería cualquier punteros hacia la literatura relevante o explicaciones adecuadas para las estadísticas de los principiantes.

Gracias.

30voto

GenericTypeTea Puntos 27689

El error estándar de la regresión de la línea en el punto de $X$ ( $s_{\hat{Y}_{X}}$ ) es la mano calculado (Yech!) el uso de:

$s_{\hat{Y}_{X}} = s_{Y|X}\sqrt{\frac{1}{n}+\frac{\left(X-\bar{X}\right)^{2}}{\sum_{i=1}^{n}{\left(X_{i}-\bar{X}\right)^{2}}}}$,

donde el error estándar de la estimación (es decir,$s_{Y|X}$) es la mano calculado (Doble yech!) el uso de:

$s_{Y|X} = \sqrt{\frac{\sum_{i=1}^{n}{\left(Y_{i}-\hat{Y}\right)^{2}}}{n-2}}$.

La banda de confianza acerca de la línea de regresión se obtiene como $\hat{Y} \pm t_{\nu=n-2, \alpha/2}s_{\hat{Y}}$.

Tenga en cuenta que la banda de confianza acerca de la línea de regresión no es la misma bestia como la predicción de la banda acerca de la línea de regresión (no hay más incertidumbre en la predicción de la $Y$ da un valor de $X$ que en la estimación de la línea de regresión). Y, como usted está luchando para entender que los intervalos de confianza sobre el intercepto y la pendiente son todavía otras cantidades.

Además, usted no entiende los intervalos de confianza: "si en el 95% de los casos mis estimaciones están dentro del intervalo de confianza, estos parecen como un posible resultado?" Los intervalos de confianza no contiene el 95% de las estimaciones, en lugar de cada una de las muestras (producido por el mismo diseño del estudio), el 95% de los (calculada por separado para cada muestra) 95% intervalos de confianza de contener el verdadero parámetro de población " (es decir, la verdadera pendiente, el verdadero interceptar, etc.) que $\hat{\beta}$ $\hat{\alpha}$ está estimando.

25voto

Buena pregunta. Es importante entender estos conceptos y no son sencillas.

De confianza del 95% de las bandas que se ve alrededor de la línea de regresión generados por el 95% de intervalos de confianza de que el verdadero valor de $\bar y$ cae dentro de ese rango para cada x individuales. Así que tome un corte vertical, decir en x = 50. La regresión nos dice que $\bar y$ en x = 50 es de aproximadamente 25. El intervalo de confianza del cálculo nos dice que estamos 95% seguros de que el verdadero valor de $\bar y$ a que punto está dentro de la zona gris de la gráfica (de manera que aproximadamente el 15 y 35 para el gráfico de arriba).

Cuando se combinan todos los intervalos de confianza, para cada x, nos da el gris de las bandas que se ven en la salida.

Lo que esto funcionalmente significa es que estamos 95% seguros de que la verdadera línea de regresión se encuentra en algún lugar de la zona gris.

Debido a que las bandas de confianza se calculan utilizando el 95% de intervalos de confianza para cada punto, es muy estrechamente relacionado con el IC del 95% para la intercepción. De hecho, en x = 0 de los bordes de la zona gris coincidirá exactamente con el IC del 95% para la intercepción, porque eso es lo que nos ha generado la confianza de las bandas. Es por eso que las líneas que he añadido por encima de golpear el borde de la banda gris hacia la izquierda.

Sin embargo, la pendiente es un poco diferente. Contribuyen a los límites, como hemos visto anteriormente, pero la pendiente y la intersección no son separables en una regresión lineal. Así que, realmente no se puede decir "bueno, lo que si la intersección se en el mínimo del rango de IC y la pendiente era también en el mínimo?" Esta línea sería la de generar puntos que están fuera de nuestra 95% CI para una gran cantidad de x. Esto significa que estamos 95% seguros de que no es nuestra verdadera línea de regresión.

Para abordar la segunda cuestión, fuera de regresión cálculos son más precisos para los valores de x en el centro de nuestra muestra. De hecho, la parte más estrecha 95% CI se mostrará en $\bar x$. Esto es debido a que, como se puede ver en la fórmula en la respuesta de Alexis, $s_{{\hat y}_x}$, $(x - \bar x)$ es en el numerador de una fracción. Al $x = \bar x$ este valor es cero, por lo que el error estándar es menor.

Hay una buena presentación en powerpoint aquí que puede ayudarte a visualizar algunas de estas cosas: http://www.stat.duke.edu/~tjl13/s101/diapositivas/unit6lec3H.pdf

0voto

MattSayar Puntos 723

Una de las razones por 2.5 % y 97.5 % de pendiente solo / en interceptar solo puede ser es que se trata de

... para encerrar la misma probabilidad que las dos bandas [en $a_0\ a_1$ por separado], la elipse debe necesariamente extenderse fuera de ambos.

Recetas numérica p. 811; ver la foto.

Otra razón puede ser que los errores de este Ozono datos están lejos de una distribución normal — los expertos aconsejan por favor. Simplemente bootstrap ajuste de un par de líneas puede ser más informativo que bonito simétrica exceso de Confianza de la región:

enter image description here Mapas entre elíptica nubes de puntos en un espacio en el parámetro $\leftrightarrow$ conjuntos de líneas puede ser bastante poco intuitivo. Que depende de la parametrización (intercepto pendiente, izquierda / derecha intercepta ...), por no hablar de transformaciones de $x y$ . Sucede que Hastie et al., Los Elementos de Aprendizaje Estadístico p. 202 los mismos datos pero tomar la raíz cúbica de la concentración de ozono ?!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X