19 votos

¿Cuáles son las ventajas / desventajas de usar splines, splines suavizados y emuladores de procesos gaussianos?

Estoy interesado en aprender (e implementar) una alternativa a la interpolación polinómica.

Sin embargo, estoy teniendo problemas para encontrar una buena descripción de cómo funcionan estos métodos, cómo se relacionan y cómo se comparan.

Agradecería su opinión sobre los pros/contras/condiciones bajo las cuales estos métodos o alternativas serían útiles, pero algunas referencias a textos, diapositivas o podcasts serían suficientes.

0 votos

Esta es realmente una pregunta muy interesante, pero tal vez (sólo tal vez) más apropiada para math.stackexchange.com?

0 votos

Hay material sobre splines y splines suavizantes en The Elements of Statistical Learning de Hastie et al.

8 votos

Creo que esta es una pregunta perfectamente razonable sobre estadísticas de computación.

25voto

Sean Hanley Puntos 2428

La regresión OLS básica es una técnica muy buena para ajustar una función a un conjunto de datos. Sin embargo, la regresión simple solo ajusta una línea recta que es constante para todo el rango posible de $X$. Esto puede no ser apropiado para una situación dada. Por ejemplo, a veces los datos muestran una relación curvilínea. Esto puede ser manejado mediante la regresión de $Y$ sobre una transformación de $X$, $f(X)$. Son posibles diferentes transformaciones. En situaciones donde la relación entre $X$ e $Y$ es monótona, pero disminuye continuamente, se puede utilizar una transformación logarítmica. Otra opción popular es usar un polinomio donde los nuevos términos se forman elevando $X$ a una serie de potencias (por ejemplo, $X^2$, $X^3$, etc.). Esta estrategia es fácil de implementar, y puedes interpretar el ajuste como diciéndote cuántas 'curvas' existen en tus datos (donde el número de curvas es igual a la potencia más alta necesaria menos 1).

Sin embargo, las regresiones basadas en el logaritmo o un exponente de la covariable se ajustarán de manera óptima solo cuando esa sea la naturaleza exacta de la verdadera relación. Es bastante razonable imaginar que existe una relación curvilínea entre $X$ e $Y$ que es diferente de las posibilidades que ofrecen esas transformaciones. Así, llegamos a otras dos estrategias. El primer enfoque es loess, una serie de regresiones lineales ponderadas calculadas sobre una ventana móvil. Este enfoque es más antiguo y está más adaptado al análisis exploratorio de datos.

El otro enfoque es utilizar splines. En su forma más simple, un spline es un nuevo término que se aplica a solo una porción del rango de $X$. Por ejemplo, $X$ podría variar de 0 a 1, y el término spline podría variar solo de .7 a 1. En este caso, .7 es el nudo. Un término spline lineal simple se calcularía así: $$ X_{\rm spline} = \begin{cases} 0\quad &\text{si } X\le{.7} \\ X-.7\quad &\text{si } X>.7 \end{cases} $$
y se añadiría a tu modelo, además del término original de $X$. El modelo ajustado mostrará un quiebre abrupto en .7 con una línea recta de 0 a .7, y la línea continuará con una pendiente diferente de .7 a 1. Sin embargo, un término spline no tiene por qué ser lineal. Específicamente, se ha determinado que los splines cúbicos son especialmente útiles (es decir, $X_{\rm spline}^3$). El quiebre abrupto no tiene por qué estar allí tampoco. Se han desarrollado algoritmos que limitan los parámetros ajustados de manera que las primeras y segundas derivadas coincidan en los nudos, lo cual hace que los nudos sean imposibles de detectar en la salida. El resultado final de todo esto es que con solo unos pocos nudos (generalmente 3-5) en ubicaciones elegidas (que el software puede determinar por ti) se puede reproducir prácticamente cualquier curva. Además, los grados de libertad se calculan correctamente, por lo que puedes confiar en los resultados, lo cual no es cierto cuando miras tus datos primero y luego decides ajustar un término al cuadrado porque viste una curva. Además, todo esto es simplemente otra (aunque más complicada) versión del modelo lineal básico. Así, todo lo que obtenemos con los modelos lineales viene con esto (por ejemplo, predicciones, residuos, bandas de confianza, pruebas, etc.). Estas son ventajas substantivas.

La introducción más simple a estos temas que conozco es:

6voto

Martin O'Leary Puntos 2046

Los apuntes en línea de Cosma Shalizi sobre su curso de conferencias Análisis Avanzado de Datos desde un Punto de Vista Elemental son bastante buenos en este tema, mirando las cosas desde una perspectiva donde la interpolación y la regresión son dos enfoques para el mismo problema. Me gustaría llamar especialmente su atención a los capítulos sobre métodos de suavizado y splines.

1 votos

Tus enlaces podrían necesitar actualizarse. Lo intenté, pero deberías verificar que mis ediciones propuestas lleguen a las páginas que deseas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X