La regresión OLS básica es una técnica muy buena para ajustar una función a un conjunto de datos. Sin embargo, la regresión simple solo ajusta una línea recta que es constante para todo el rango posible de $X$. Esto puede no ser apropiado para una situación dada. Por ejemplo, a veces los datos muestran una relación curvilínea. Esto puede ser manejado mediante la regresión de $Y$ sobre una transformación de $X$, $f(X)$. Son posibles diferentes transformaciones. En situaciones donde la relación entre $X$ e $Y$ es monótona, pero disminuye continuamente, se puede utilizar una transformación logarítmica. Otra opción popular es usar un polinomio donde los nuevos términos se forman elevando $X$ a una serie de potencias (por ejemplo, $X^2$, $X^3$, etc.). Esta estrategia es fácil de implementar, y puedes interpretar el ajuste como diciéndote cuántas 'curvas' existen en tus datos (donde el número de curvas es igual a la potencia más alta necesaria menos 1).
Sin embargo, las regresiones basadas en el logaritmo o un exponente de la covariable se ajustarán de manera óptima solo cuando esa sea la naturaleza exacta de la verdadera relación. Es bastante razonable imaginar que existe una relación curvilínea entre $X$ e $Y$ que es diferente de las posibilidades que ofrecen esas transformaciones. Así, llegamos a otras dos estrategias. El primer enfoque es loess, una serie de regresiones lineales ponderadas calculadas sobre una ventana móvil. Este enfoque es más antiguo y está más adaptado al análisis exploratorio de datos.
El otro enfoque es utilizar splines. En su forma más simple, un spline es un nuevo término que se aplica a solo una porción del rango de $X$. Por ejemplo, $X$ podría variar de 0 a 1, y el término spline podría variar solo de .7 a 1. En este caso, .7 es el nudo. Un término spline lineal simple se calcularía así: $$ X_{\rm spline} = \begin{cases} 0\quad &\text{si } X\le{.7} \\ X-.7\quad &\text{si } X>.7 \end{cases} $$
y se añadiría a tu modelo, además del término original de $X$. El modelo ajustado mostrará un quiebre abrupto en .7 con una línea recta de 0 a .7, y la línea continuará con una pendiente diferente de .7 a 1. Sin embargo, un término spline no tiene por qué ser lineal. Específicamente, se ha determinado que los splines cúbicos son especialmente útiles (es decir, $X_{\rm spline}^3$). El quiebre abrupto no tiene por qué estar allí tampoco. Se han desarrollado algoritmos que limitan los parámetros ajustados de manera que las primeras y segundas derivadas coincidan en los nudos, lo cual hace que los nudos sean imposibles de detectar en la salida. El resultado final de todo esto es que con solo unos pocos nudos (generalmente 3-5) en ubicaciones elegidas (que el software puede determinar por ti) se puede reproducir prácticamente cualquier curva. Además, los grados de libertad se calculan correctamente, por lo que puedes confiar en los resultados, lo cual no es cierto cuando miras tus datos primero y luego decides ajustar un término al cuadrado porque viste una curva. Además, todo esto es simplemente otra (aunque más complicada) versión del modelo lineal básico. Así, todo lo que obtenemos con los modelos lineales viene con esto (por ejemplo, predicciones, residuos, bandas de confianza, pruebas, etc.). Estas son ventajas substantivas.
La introducción más simple a estos temas que conozco es:
0 votos
Esta es realmente una pregunta muy interesante, pero tal vez (sólo tal vez) más apropiada para math.stackexchange.com?
0 votos
Hay material sobre splines y splines suavizantes en The Elements of Statistical Learning de Hastie et al.
8 votos
Creo que esta es una pregunta perfectamente razonable sobre estadísticas de computación.
0 votos
@csgillespie: Todo lo que sé sobre splines e interpolación lo aprendí en clases de matemáticas numéricas. Por lo tanto, puede que esté un poco sesgado ;).