24 votos

La regresión lineal de predicción del intervalo de

Si la mejor aproximación lineal (utilizando mínimos cuadrados) de mis datos de puntos es la línea de $y=mx+b$, ¿cómo puedo calcular la aproximación de error? Si puedo calcular la desviación estándar de las diferencias entre las observaciones y las predicciones $e_i=real(x_i)-(mx_i+b)$, puede más tarde me dicen que un real (pero no observado) valor $y_r=real(x_0)$ pertenece al intervalo $[y_p-\sigma, y_p+\sigma]$ ($y_p=mx_0+b$) con probabilidad ~68%, suponiendo una distribución normal?

Para aclarar:

Hice observaciones con respecto a una función de $f(x)$ por la evaluación de un algunos puntos de $x_i$. Me caben estas observaciones a una línea de $l(x)=mx+b$. Para $x_0$ que yo no observar, me gustaría saber cómo de grande puede $f(x_0)-l(x_0)$. Usando el método anterior, es correcto decir que el $f(x_0) \in [l(x_0)-\sigma, l(x_0)+\sigma]$ con prob. ~68%?

32voto

Sean Hanley Puntos 2428

@whuber ha apuntado a tres buenas respuestas, pero tal vez todavía puedo escribir algo de valor. Su pregunta explícita, como yo lo entiendo, es:

Dada mi modelo ajustado, $\hat y_i=\hat mx_i + \hat b$ (aviso he añadido 'sombreros'), y suponiendo que a mi los residuos están normalmente distribuidos, $\mathcal N(0, \hat\sigma^2_e)$, puedo predecir que aún no observados de respuesta, $y_{new}$, con un valor predictor, $x_{new}$, se encuentra dentro del intervalo de $(\hat y -\sigma_e, \hat y +\sigma_e)$, con una probabilidad del 68%?

Intuitivamente, la respuesta parece que debería ser "sí", pero la verdadera respuesta es tal vez. Este será el caso cuando los parámetros (es decir,, $m, b,$ & $\sigma$) son conocidos y sin error. Desde el estimado de estos parámetros, debemos tomar su incertidumbre en cuenta.

Primero vamos a pensar acerca de la desviación estándar de los residuos. Debido a que este es estimada a partir de sus datos, puede haber algún error en la estimación. Como resultado, la distribución debe usar para formar su predicción intervalo de $t_\text{df error}$, no el normal. Sin embargo, puesto que el $t$ converge rápidamente a la normal, esto es menos probable que sea un problema en la práctica.

Así que, ¿podemos usar $\hat y_\text{new}\pm t_{(1-\alpha/2,\ \text{df error})}s$, en lugar de $\hat y_\text{new}\pm z_{(1-\alpha/2)}s$, y en nuestra forma alegre? Por desgracia, no. El problema más grande es que existe incertidumbre acerca de su estimación de la media condicional de la respuesta en ese lugar, debido a la incertidumbre en las estimaciones $\hat m$ & $\hat b$. Por lo tanto, la desviación estándar de las predicciones necesita incorporar más que $s_\text{error}$. Debido a que las desviaciones de agregar, la estimación de la varianza de las predicciones serán: $$ s^2_\text{predicciones(nuevo)}=s^2_\text{error}+\text{Var}(\hat mx_\text{nuevo}+\hat b) $$ Observe que el "$x$" es subíndice para representar el valor específico para la nueva observación, y que el "$s^2$" es, en consecuencia, subíndice. Es decir, el intervalo de predicción depende de la localización de la nueva observación a lo largo de la $x$ eje. La desviación estándar de las predicciones puede ser más conveniente calcula con la siguiente fórmula: $$ s_\text{predicciones(nuevo)}=\sqrt{s^2_\text{error}\left(1+\frac{1}{N}+\frac{(x\text{nuevo}-\bar x)^2}{\sum(x_i-\bar x)^2}\right)} $$ Como nota interesante, podemos deducir algunos hechos acerca de los intervalos de predicción a partir de esta ecuación. En primer lugar, intervalos de predicción será más estrecho es el más datos que se tenían cuando se construyó el modelo de predicción (esto es debido a que hay menos incertidumbre en $\hat m$ & $\hat b$). Segundo, las predicciones serán más precisos si se hacen en la media de los $x$ valores utilizados para desarrollar el modelo, como el numerador por el tercer término será $0$. La razón es que, en circunstancias normales, no hay incertidumbre sobre la estimación de la pendiente en el punto medio de $x$, sólo un poco de incertidumbre acerca de la verdadera posición vertical de la línea de regresión. Por lo tanto, algunas de las lecciones a ser aprendidas para la construcción de modelos de predicción son: que el mayor número de datos es útil, no con la búsqueda de "significado", pero con la mejora de la precisión de las predicciones futuras; y que se debe centrar sus esfuerzos de recolección de datos en el intervalo donde se necesita para hacer predicciones en el futuro (para minimizar el numerador), pero la propagación de las observaciones como mucho de ese centro (para maximizar la que el denominador).

Habiendo calculado el valor correcto de esta manera, se puede utilizar con el correspondiente $t$ distribución como se señaló anteriormente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X