Supongamos que los datos de la muestra es $D = (X, \mathbf{y}) = \{\mathbf{x}_i, y_i = y(x_i)\}_{i = 1}^N$.
También supongamos que tenemos una función de covarianza $k(\mathbf{x}_1, \mathbf{x}_2)$ y cero significa que se especifica para un Gussian proceso. La distribución de un nuevo punto de $\mathbf{x}$ será Gaussiano con media $$m(\mathbf{x}) = \mathbf{k} K^{-1} \mathbf{y}$$ and variance $$V(\mathbf{x}) = k(\mathbf{x}, \mathbf{x}) - \mathbf{k} K^{-1} \mathbf{k}^T.$$ Vector $\mathbf{k} = \{k(\mathbf{x}, \mathbf{x}_1), \ldots, k(\mathbf{x}, \mathbf{x}_N)\}$ is a vector of covariances, matrix $K = \{k(\mathbf{x}_i, \mathbf{x}_j)\}_{i, j = 1}^N$ es una matriz de covarianzas de la muestra. En caso de realizar una predicción utilizando el valor de la media de la distribución posterior de las muestras para la interpolación de la propiedad se mantiene. Realmente,
$$m(X) = K K^{-1} \mathbf{y} = \mathbf{y}.$$
Pero, no es el caso si utilizamos la regularización es decir, incorporar el ruido blanco plazo. en este caso la matriz de covarianza de la muestra tiene forma de $K + \sigma I$, pero para las covarianzas con la función real de los valores que han matriz de covarianza $K$, y posterior decir es
$$
m(X) = K (K + \sigma I)^{-1} \mathbf{y} \neq \mathbf{y}.
$$
Además, la regularización hace problema computacionalmente más estable.
La elección de varianza del ruido de $\sigma$ podemos seleccionar si queremos que la interpolación ($\sigma = 0$) o queremos manejar ruidoso observaciones ($\sigma$ es grande).
También, el Gaussiano procesos de regresión es el método local debido a que la varianza de las predicciones crece con la distancia a la muestra de aprendizaje, pero podemos seleccionar apropiado de la función de covarianza $k$ y manejar los problemas más complejos, que con RBF. Otra buena propiedad es pequeño número de parámetros. Generalmente es igual a $O(n)$ donde $n$ es la dimensión de datos.