¿Cuáles son las ventajas / desventajas de usar splines, splines suavizados y emuladores de procesos gaussianos?

Question

¿Cuáles son las ventajas / desventajas de usar splines, splines suavizados y emuladores de procesos gaussianos?

Preguntado el 30 de Noviembre, 2010: Cuando se hizo la pregunta
26147 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Estoy interesado en aprender (e implementar) una alternativa a la interpolación polinómica.

Sin embargo, estoy teniendo problemas para encontrar una buena descripción de cómo funcionan estos métodos, cómo se relacionan y cómo se comparan.

Agradecería su opinión sobre los pros/contras/condiciones bajo las cuales estos métodos o alternativas serían útiles, pero algunas referencias a textos, diapositivas o podcasts serían suficientes.

Preguntado el 30 de Noviembre, 2010 por Hertanto Lie

0 votos

Esta es realmente una pregunta muy interesante, pero tal vez (sólo tal vez) más apropiada para math.stackexchange.com?

Comentado el 30 de Noviembre, 2010 por Xenph Yan

0 votos

Hay material sobre splines y splines suavizantes en The Elements of Statistical Learning de Hastie et al.

Comentado el 30 de Noviembre, 2010 por KP.

8 votos

Creo que esta es una pregunta perfectamente razonable sobre estadísticas de computación.

Comentado el 30 de Noviembre, 2010 por Eggs McLaren

Mostrar 1 comentarios más

Answer 1

2 Respuestas

Answer 2

25voto

Sean Hanley Puntos 2428

La regresión OLS básica es una técnica muy buena para ajustar una función a un conjunto de datos. Sin embargo, la regresión simple solo ajusta una línea recta que es constante para todo el rango posible de $X$ . Esto puede no ser apropiado para una situación dada. Por ejemplo, a veces los datos muestran una relación curvilínea. Esto puede ser manejado mediante la regresión de $Y$ sobre una transformación de $X$ , $f(X)$ . Son posibles diferentes transformaciones. En situaciones donde la relación entre $X$ e $Y$ es monótona, pero disminuye continuamente, se puede utilizar una transformación logarítmica. Otra opción popular es usar un polinomio donde los nuevos términos se forman elevando $X$ a una serie de potencias (por ejemplo, $X^2$ , $X^3$ , etc.). Esta estrategia es fácil de implementar, y puedes interpretar el ajuste como diciéndote cuántas 'curvas' existen en tus datos (donde el número de curvas es igual a la potencia más alta necesaria menos 1).

Sin embargo, las regresiones basadas en el logaritmo o un exponente de la covariable se ajustarán de manera óptima solo cuando esa sea la naturaleza exacta de la verdadera relación. Es bastante razonable imaginar que existe una relación curvilínea entre $X$ e $Y$ que es diferente de las posibilidades que ofrecen esas transformaciones. Así, llegamos a otras dos estrategias. El primer enfoque es loess, una serie de regresiones lineales ponderadas calculadas sobre una ventana móvil. Este enfoque es más antiguo y está más adaptado al análisis exploratorio de datos.

El otro enfoque es utilizar splines. En su forma más simple, un spline es un nuevo término que se aplica a solo una porción del rango de $X$ . Por ejemplo, $X$ podría variar de 0 a 1, y el término spline podría variar solo de .7 a 1. En este caso, .7 es el nudo. Un término spline lineal simple se calcularía así: $X_{\rm spline} = \begin{cases} 0\quad &\text{si } X\le{.7} \\ X-.7\quad &\text{si } X>.7 \end{cases}$
y se añadiría a tu modelo, además del término original de $X$ . El modelo ajustado mostrará un quiebre abrupto en .7 con una línea recta de 0 a .7, y la línea continuará con una pendiente diferente de .7 a 1. Sin embargo, un término spline no tiene por qué ser lineal. Específicamente, se ha determinado que los splines cúbicos son especialmente útiles (es decir, $X_{\rm spline}^3$ ). El quiebre abrupto no tiene por qué estar allí tampoco. Se han desarrollado algoritmos que limitan los parámetros ajustados de manera que las primeras y segundas derivadas coincidan en los nudos, lo cual hace que los nudos sean imposibles de detectar en la salida. El resultado final de todo esto es que con solo unos pocos nudos (generalmente 3-5) en ubicaciones elegidas (que el software puede determinar por ti) se puede reproducir prácticamente cualquier curva. Además, los grados de libertad se calculan correctamente, por lo que puedes confiar en los resultados, lo cual no es cierto cuando miras tus datos primero y luego decides ajustar un término al cuadrado porque viste una curva. Además, todo esto es simplemente otra (aunque más complicada) versión del modelo lineal básico. Así, todo lo que obtenemos con los modelos lineales viene con esto (por ejemplo, predicciones, residuos, bandas de confianza, pruebas, etc.). Estas son ventajas substantivas.

La introducción más simple a estos temas que conozco es:

Fox, J. (2000). Regresión Simple No Paramétrica: Suavización de Gráficos de Dispersión, Sage.

Respondido el 22 de Marzo, 2012 por Sean Hanley (2428 Puntos )

Answer 3

6voto

Martin O'Leary Puntos 2046

Los apuntes en línea de Cosma Shalizi sobre su curso de conferencias Análisis Avanzado de Datos desde un Punto de Vista Elemental son bastante buenos en este tema, mirando las cosas desde una perspectiva donde la interpolación y la regresión son dos enfoques para el mismo problema. Me gustaría llamar especialmente su atención a los capítulos sobre métodos de suavizado y splines.

Respondido el 22 de Marzo, 2012 por Martin O'Leary (2046 Puntos )

1 votos

Tus enlaces podrían necesitar actualizarse. Lo intenté, pero deberías verificar que mis ediciones propuestas lleguen a las páginas que deseas.

Comentado el 3 de Febrero, 2016 por Adam

¿Cuáles son las ventajas / desventajas de usar splines, splines suavizados y emuladores de procesos gaussianos?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cuáles son las ventajas / desventajas de usar splines, splines suavizados y emuladores de procesos gaussianos?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: