@whuber ha apuntado a tres buenas respuestas, pero tal vez todavía puedo escribir algo de valor. Su pregunta explícita, como yo lo entiendo, es:
Dada mi modelo ajustado, $\hat y_i=\hat mx_i + \hat b$ (aviso he añadido 'sombreros'), y suponiendo que a mi los residuos están normalmente distribuidos, $\mathcal N(0, \hat\sigma^2_e)$, puedo predecir que aún no observados de respuesta, $y_{new}$, con un valor predictor, $x_{new}$, se encuentra dentro del intervalo de $(\hat y -\sigma_e, \hat y +\sigma_e)$, con una probabilidad del 68%?
Intuitivamente, la respuesta parece que debería ser "sí", pero la verdadera respuesta es tal vez. Este será el caso cuando los parámetros (es decir,, $m, b,$ & $\sigma$) son conocidos y sin error. Desde el estimado de estos parámetros, debemos tomar su incertidumbre en cuenta.
Primero vamos a pensar acerca de la desviación estándar de los residuos. Debido a que este es estimada a partir de sus datos, puede haber algún error en la estimación. Como resultado, la distribución debe usar para formar su predicción intervalo de $t_\text{df error}$, no el normal. Sin embargo, puesto que el $t$ converge rápidamente a la normal, esto es menos probable que sea un problema en la práctica.
Así que, ¿podemos usar $\hat y_\text{new}\pm t_{(1-\alpha/2,\ \text{df error})}s$, en lugar de $\hat y_\text{new}\pm z_{(1-\alpha/2)}s$, y en nuestra forma alegre? Por desgracia, no. El problema más grande es que existe incertidumbre acerca de su estimación de la media condicional de la respuesta en ese lugar, debido a la incertidumbre en las estimaciones $\hat m$ & $\hat b$. Por lo tanto, la desviación estándar de las predicciones necesita incorporar más que $s_\text{error}$. Debido a que las desviaciones de agregar, la estimación de la varianza de las predicciones serán:
$$
s^2_\text{predicciones(nuevo)}=s^2_\text{error}+\text{Var}(\hat mx_\text{nuevo}+\hat b)
$$
Observe que el "$x$" es subíndice para representar el valor específico para la nueva observación, y que el "$s^2$" es, en consecuencia, subíndice. Es decir, el intervalo de predicción depende de la localización de la nueva observación a lo largo de la $x$ eje. La desviación estándar de las predicciones puede ser más conveniente calcula con la siguiente fórmula:
$$
s_\text{predicciones(nuevo)}=\sqrt{s^2_\text{error}\left(1+\frac{1}{N}+\frac{(x\text{nuevo}-\bar x)^2}{\sum(x_i-\bar x)^2}\right)}
$$
Como nota interesante, podemos deducir algunos hechos acerca de los intervalos de predicción a partir de esta ecuación. En primer lugar, intervalos de predicción será más estrecho es el más datos que se tenían cuando se construyó el modelo de predicción (esto es debido a que hay menos incertidumbre en $\hat m$ & $\hat b$). Segundo, las predicciones serán más precisos si se hacen en la media de los $x$ valores utilizados para desarrollar el modelo, como el numerador por el tercer término será $0$. La razón es que, en circunstancias normales, no hay incertidumbre sobre la estimación de la pendiente en el punto medio de $x$, sólo un poco de incertidumbre acerca de la verdadera posición vertical de la línea de regresión. Por lo tanto, algunas de las lecciones a ser aprendidas para la construcción de modelos de predicción son: que el mayor número de datos es útil, no con la búsqueda de "significado", pero con la mejora de la precisión de las predicciones futuras; y que se debe centrar sus esfuerzos de recolección de datos en el intervalo donde se necesita para hacer predicciones en el futuro (para minimizar el numerador), pero la propagación de las observaciones como mucho de ese centro (para maximizar la que el denominador).
Habiendo calculado el valor correcto de esta manera, se puede utilizar con el correspondiente $t$ distribución como se señaló anteriormente.