13 votos

Diferencia entre proceso Gaussian regresión y otras técnicas de regresión (regresión lineal decir)

Estoy confundido acerca de las diferencias en las técnicas de regresión disponible.

Tomemos, por ejemplo, la regresión lineal. En este caso, se construye un modelo $y = \beta^Tx + \epsilon$ donde $\epsilon \sim N(0,\sigma^2)$. En un sentido, $y$ a continuación, se convierte en un "proceso Gaussiano", cuya media es $\beta^Tx$ , mientras que su función de covarianza es $k(x,x')=\sigma^2 \mathbb{1}_{x = x'}$.

Por otro lado, Gauss proceso de regresión (como en el GP de ML libro) es modelada como $y \sim N(m(x),k(x,x'))$ para algunos kernel/función de covarianza $k(x,x')$. Este tipo de modelo se utiliza para interpolar un conjunto de datos utilizando funciones de base que son el resultado de la función de covarianza.

La principal diferencia que veo es que la regresión lineal (o en realidad, la regresión generalizada de este formulario), se crea un modelo que no pasa a través de los puntos de datos sino que encuentra el modelo que tiene el "mejor ajuste". Por supuesto, el predictor no necesita ser lineal. Por otro lado, Gauss proceso de regresión utiliza acondicionado en Gaussiano vectores para encontrar un modelo que en realidad pasa a través de los puntos de datos.

Con esto en mente:

  • Lo que realmente es Gaussiano proceso de regresión? Puede la regresión lineal con una distribución normal, $\epsilon$ todavía se considera Gaussiano proceso de regresión, como contraposición a la de Gauss proceso de regresión que interpola los datos (es decir, el kriging)? Estoy confundido porque Wikipedia muestra que Gaussiano proceso de regresión no necesita interpolar los puntos de datos como se muestra en la figura aquí: enlace.

Alguien me puede ayudar a aclarar esta confusión?

7voto

En el proceso de parte de la gaussiana proceso de regresión nombre, existe una noción de continuidad que está restringido por el uso de una covarianza del núcleo. El supuesto subyacente es que la variable es espacialmente auto correlacionados, lo que significa que el conocimiento de los resultados en algún momento se dará información en la ubicación más cercana. Esta es la principal diferencia entre un proceso gaussiano y una simple variable gaussiana.

Con respecto a la regresión, la principal diferencia obvia entre gaussiano proceso de regresión y "clásico" técnicas de regresión, es que no se fuerce una fórmula analítica para el predictor, pero una estructura de covarianza de los resultados.

Gauss proceso de regresión es muy flexible con respecto a la interpolación. Usted puede hacer un interpolador exacto, siempre y cuando usted no tiene dos resultados diferentes para una misma entrada. Usted puede aliviar el problema de la interpolación exacta de restricción, ya sea por la delimitación de la covarianza del núcleo hyperparameters valores, o, más generalmente, añadiendo un poco de ruido blanco a la covarianza del núcleo.

En el ejemplo de la regresión lineal, ha $y = \beta^Tx + \epsilon$ con $\epsilon \sim \mathcal{N}(0,\sigma^2)$. Creo que se le puede llamar una especie de campana de gauss proceso de regresión tan pronto como usted asume que $\epsilon(x)$ es una gaussiana proceso en sí, y no sólo a algunos aleatorio gaussiano variable (es decir, se asume que el $\epsilon$ es espacialmente auto correlacionados). En el caso general de la regresión lineal, la $\epsilon$ plazo es sólo supone que es un ruido blanco, y por lo tanto usted no puede llamar gaussiano proceso de regresión.

El uso de los clásicos de regresión y de gauss proceso de regresión es bastante usual que los meta-técnica de modelado en la industria. La idea básica es hacer primero un ajuste por una técnica clásica (cualquier analítico de regresión, o un determinista código de computadora) que es determinado por el conocimiento previo del proceso real. Luego, con los datos experimentales, usted puede caber la discrepancia entre el modelo y la realidad, suponiendo que se sigue un proceso gaussiano. Esto explica el hecho de que su modelo de análisis es una versión simplificada de un verdadero proceso, junto con las incertidumbres de medición. Esto se refiere a menudo como bayesiano de calibración por gauss procesos.

6voto

InfProbSciX Puntos 174

Una Gaussiana Proceso no tiene que perfectamente interpolar entre puntos, ya que el enlace de Wikipedia muestra; todo depende de la covarianza de la función que utilice.

Por ejemplo, considere el GP de la forma $X \sim \mathcal N(0, \Sigma_{k_t})$, donde $X$ es un vector de un "variables dependientes", y $\Sigma_{k_t}$ es una matriz de covarianza, donde cada elemento $\Sigma_{ij} = k(t_i, t_j)$ para algunos kernel de la función de $k$, y un conjunto de puntos de la "variable independiente" $t$.

Si especifica un kernel con la siguiente propiedad: $Cor(x_i, x_j) \to 1$ como $||t_i - t_j|| \to 0$, aviso de que va a aplicar la continuidad. Por lo tanto, si usted simplemente usar un kernel, por ejemplo, el RBF, se debe pasar a través de todos los puntos ya que no hay "ruido" aquí en absoluto.

En cambio, si decide especificar un kernel que no cuenta para el ruido, por ejemplo: $k(t_i, t_j) = RBF(t_i, t_j) + \sigma^2 \mathcal I(t_i =t_j)$ ( WhiteKernel en scikit-learn, también conocido como el Ruido Blanco kernel), a continuación, observe que, incluso si los dos $t$s cerca, su correlación no es 1, es decir, hay algo de ruido aquí. Así que la función no se espera que sea continua.

De hecho, se puede interpretar usando un kernel como el tradicional liso RBF GP, pero con un ruido término añadido en la parte superior:

$$X \sim \mathcal N(0, \Sigma_{RBF} + \sigma^2 \mathcal I) $$ $$\stackrel d= \mathcal N(0, \Sigma_{RBF}) + \mathcal N(0, \sigma^2 \mathcal I) $$ $$\Rightarrow X = \bar X +\epsilon$$

... where $\bar X$ es ahora un continuo GP. Observe cómo similar esta es la ecuación de regresión lineal - la única diferencia realmente si es la sustitución de la media de la regresión lineal (que es paramétrico) para un no-paramétrico de GP.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X