3 votos

¿Visualización de la incertidumbre en la pendiente y el desplazamiento de una línea de regresión?

Según un ajuste de mínimos cuadrados que he realizado a mis datos, mi pendiente es $-0.1038±0.033$ y mi compensación $0.1065±0.032$ . Mi primera idea fue visualizarlo dibujando tres líneas: $0.1065-0.1038x$ , $(0.1065+0.032) - (0.1038-0.33)x$ y $(0.1065-0.032) + (0.1038+0.33)x$ . Estos corresponden al intervalo de confianza del 95%. Sin embargo, la probabilidad conjunta de que tanto la pendiente como el desplazamiento se encuentren en el límite de los intervalos del 95% no es ciertamente del 5%. Si ambos fueran independientes, estaría más cerca del 0,25%, mientras que en realidad la probabilidad conjunta está probablemente en algún punto intermedio.

Podría calcular el intervalo de confianza en $\sqrt{0.05}$ para el desplazamiento y la pendiente y, a continuación, visualizar los extremos como se ha descrito anteriormente, para obtener un rango de probabilidad efectivo del 5%. Pero es casi seguro que estoy reinventando la rueda. ¿Cuál es una forma adecuada de visualizar la incertidumbre en una línea de regresión - pendiente y desplazamiento?

Como referencia, Python statsmodels.api.OLS resume mi ajuste de regresión como se indica a continuación. En mi ejemplo del mundo real, utilizo mínimos cuadrados ponderados, porque tengo errores en mis valores y (y estoy considerando la regresión de distancia ortogonal ya que tengo errores en mis valores x también, pero estoy descuidando esos por ahora).

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.026
Model:                            OLS   Adj. R-squared:                  0.023
Method:                 Least Squares   F-statistic:                     9.673
Date:                Mon, 06 Apr 2015   Prob (F-statistic):            0.00202
Time:                        18:14:55   Log-Likelihood:                 1223.1
No. Observations:                 370   AIC:                            -2442.
Df Residuals:                     368   BIC:                            -2434.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
const          0.1065      0.032      3.343      0.001         0.044     0.169
x1            -0.1038      0.033     -3.110      0.002        -0.169    -0.038
==============================================================================
Omnibus:                       23.030   Durbin-Watson:                   1.484
Prob(Omnibus):                  0.000   Jarque-Bera (JB):               45.433
Skew:                          -0.350   Prob(JB):                     1.36e-10
Kurtosis:                       4.567   Cond. No.                         138.
==============================================================================

7voto

erik Puntos 3923

Es posible que esté buscando lo que Wikipedia llama " Bandas de confianza ". Los bordes de la banda son curvas en lugar de líneas porque la probabilidad conjunta.

enter image description here

4voto

kjetil b halvorsen Puntos 7012

Una alternativa a veces útil a la banda de confianza es mostrar la línea estimada junto con las líneas bootstrap. He aquí un ejemplo sencillo y simulado:

Estimeted LS line with bootstrapped lines

EDIT

Por ejemplo, la regresión por muestreo puede hacerse de diferentes maneras:

  1. Remuestreo (con reemplazo) de las filas de la matriz de diseño. Esto es lo que he hecho aquí . Una opción robusta, es válida incluso cuando no se cumplen supuestos como la varianza constante. Pero un problema filosófico, no condiciona realmente las covariables, ver ¿Cuál es la diferencia entre condicionar los regresores y tratarlos como fijos? .

  2. Resmpling residuals. Más dependiente de suposiciones como la varianza constante, pero fiel al condicionamiento de los predictores.

  3. Bootstrap paramétrico, más bien de tipo bayesiano.

Podría ser interesante probar todo el árbol y ver la diferencia que supone.

Código R para la simulación:

set.seed(7*11*13) # My public seed

a <- 1.0; b <- 0.8

x <- rep( seq(-5, 5, length.out=11), 3)
Y <- a + b*x + rnorm(x, sd=3)
df <- data.frame(x, Y)
n <- NROW(df)
mod.0 <- lm(Y ~ x, data=df)

plot(x, Y, col="blue2",  pch=16)
abline(mod.0, col="red2", lwd=2)

for (i in 1:20) {
    ind <- sample(1:n, n, replace=TRUE)
    abline( lm(Y ~ x, data=df[ind, ]), col="pink")
}

title("Estimated line with bootstrapped lines")

3voto

Neal Puntos 316

Python puede dar esta salida, pero es bastante fácil desde los primeros principios.

Quiere el intervalo de confianza del 95% para $a+bx$ , donde $a$ y $b$ se estiman con los datos con cierto error, lo que introduce la incertidumbre.

El intervalo de confianza del 95% para el valor esperado de y dado un valor particular de $x$ es la predicción del modelo para ese $x$ $\pm$ 1,96*error de predicción. Por eso también $0.1065 + 1.96 \cdot 0.032=.169,$ el límite superior del IC del 95% para la constante.

Así que necesitamos obtener el error estándar de la predicción. Recordemos que $$Var(a+bx)=Var(a) + Var(b)\cdot x^2+2\cdot x \cdot Cov(a,b).$$ Esta fórmula se puede encontrar en Wikipedia . El error estándar es simplemente la raíz cuadrada de la varianza. Esto da como resultado: $$(0.1065 -0.1038 \cdot x) \pm 1.96 \cdot (0.032^2 + (x \cdot 0.033)^2 + 2\cdot x \cdot Cov(a,b))^{1/2}.$$

No has mostrado la covarianza entre la pendiente y el intercepto, por lo que no he podido introducirla.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X