50 votos

¿Cuál es el fundamento de la función de covarianza de Matérn?

La función de covarianza de Matérn se utiliza habitualmente como función de núcleo en los procesos gaussianos. Se define así

$$ {\displaystyle C_{\nu }(d)=\sigma ^{2}{\frac {2^{1-\nu }}{\Gamma (\nu )}}{\Bigg (}{\sqrt {2\nu }}{\frac {d}{\rho }}{\Bigg )}^{\nu }K_{\nu }{\Bigg (}{\sqrt {2\nu }}{\frac {d}{\rho }}{\Bigg )}} $$

donde $d$ es una función de distancia (como la distancia euclidiana), $\Gamma$ es la función gamma, $K_\nu$ es la función de Bessel modificada del segundo tipo, $\rho$ y $\nu$ son parámetros positivos. $\nu$ es mucho tiempo elegido para ser $\frac{3}{2}$ o $\frac{5}{2}$ en la práctica.

Muchas veces este kernel funciona mejor que el kernel gaussiano estándar, ya que es "menos suave", pero salvo eso, ¿hay alguna otra razón por la que uno prefiera este kernel? Alguna intuición geométrica sobre cómo se comporta, o alguna explicación de la fórmula aparentemente críptica sería muy apreciada.

37voto

Lubin Puntos 21941

Además de la de @Dahn buena respuesta He pensado en tratar de decir un poco más sobre el origen de las funciones de Bessel y Gamma. Un punto de partida para llegar a la función de covarianza es Teorema de Bochner .

Teorema (Bochner) Una función estacionaria continua $k(x, y) = \widetilde{k}(|x − y|)$ es positiva definida si y sólo si $\widetilde{k}$ es la transformada de Fourier de una medida positiva finita: $$\widetilde{k}(t) = \int_{\mathbb{R}} e^{−iωt}\mathrm{d}µ(ω) .$$

De esto se puede deducir que la matriz de covarianza de Matérn se deriva como la transformada de Fourier de $\frac{1}{(1+\omega^2)^p}$ (Fuente: Durrande) . Eso está muy bien, pero no nos dice realmente cómo se llega a esta medida positiva finita dada por $\frac{1}{(1+\omega^2)^p}$ . Pues bien, es la densidad espectral (de potencia) de un proceso estocástico $f(x)$ .

¿Qué proceso estocástico? Se sabe que un proceso aleatorio en $\mathbb{R}^d$ con una función de covarianza Matérn es una solución de la ecuación diferencial parcial estocástica (EDP) $$ (κ^2 − ∆)^{α/2} X(s) = φW(s), $$ donde $W(s)$ es un ruido blanco gaussiano con varianza unitaria, $$\Delta = \sum_{i=1}^d \frac{\partial^2}{\partial x^2_i}$$ es el operador de Laplace, y $α =ν + d/2$ (Creo que esto está en Cressie y Wikle ).

¿Por qué elegir este proceso SPDE/estocástico en particular? El origen está en la estadística espacial, donde se argumenta que es la covarianza más simple y natural que funciona bien en $\mathbb{R}^2$ :

La función de correlación exponencial es una correlación natural en una dimensión, ya que corresponde a un proceso de Markov. En dos dimensiones dos dimensiones, esto ya no es así, aunque la exponencial es una función de correlación en los trabajos geoestadísticos. Whittle (1954) determinó la correlación correspondiente a una ecuación diferencial estocástica de tipo Laplace:

$$ \left[ \left(\frac{\partial}{\partial t_1}\right)^2 + \left(\frac{\partial}{\partial t_2}\right)^2 - \kappa^2 \right] X(t_1, t_2) = \epsilon(t_1 , t_2) $$ donde $\epsilon$ es ruido blanco. El proceso discreto correspondiente es una autoregresión de segundo orden de segundo orden. (Fuente: Guttorp&Gneiting)

La familia de procesos incluidos en la SDE asociada a la ecuación de Matérn incluye la $AR(1)$ Modelo Ornstein-Uhlenbeck de la velocidad de una partícula en movimiento browniano. De forma más general, se puede definir un espectro de potencia para una familia de $AR(p)$ procesos para cada número entero $p$ que también tienen una covarianza de la familia Matérn. Esto es en el apéndice de Rasmussen y Williams.

Esta función de covarianza es no está relacionado con el proceso de agrupación de Matérn .

Referencias

Cressie, Noel, y Christopher K. Wikle. Estadística para datos espacio-temporales. John Wiley & Sons, 2015.

Guttorp, Peter, y Tilmann Gneiting. "Estudios en la historia de la probabilidad y la estadística XLIX Sobre la familia de correlación de Matern". Biometrika 93.4 (2006): 989-995.

Rasmussen, C. E. y Williams, C. K. I. Gaussian Processes for Machine Learning. MIT Press, 2006.

25voto

Nick Puntos 19

No lo sé, pero esta pregunta me pareció muy interesante y esto es lo que obtuve después de leer un poco sobre el tema.

Para determinados valores de $\nu$ la función de covarianza de Matérn se puede expresar como producto de un exponencial y un polinomio. Por ejemplo, para $\nu = 5/2$ : $$C_{5/2}(d) = \sigma^2\left(1 + \frac{\sqrt 5 d}{\rho} + \frac{5d^2}{3\rho^2} \right) \exp \left(- \frac{\sqrt 5 d}{\rho}\right)$$ Por lo tanto, no es demasiado sorprendente que, como $\nu \to \infty$ , $C_\nu$ en realidad converge a la RBF gaussiano : $$\lim_{\nu \to \infty} C_\nu(d) = \sigma^2 \exp \left( -\frac{d^2}{2\rho^2}\right)$$ Para $\nu = 1/2$ la función de covarianza de Matérn da el núcleo exponencial absoluto $$C_{1/2}(d) = \sigma^2 \exp\left( -\frac{d}{\rho} \right)$$

Además, un proceso gaussiano con la función de covarianza de Matérn con parámetro $\nu$ es $\lceil \nu \rceil -1$ -tiempo diferenciable .

Esto queda muy bien demostrado en una foto tomada desde Rasmussen y Williams (2006) C. E. Rasmussen & C. K. I. Williams, Gaussian Processes for Machine Learning, the MIT Press, 2006,ISBN 026218253X. c 2006 Massachusetts Institute of Technology. www.GaussianProcess.org/gpml

Sur Interpolación de datos espaciales Stein (quien realmente propuso el nombre de la función de covarianza de Matérn), argumenta (pág. 30) que la diferenciabilidad infinita de la función de covarianza gaussiana produce resultados poco realistas para los procesos físicos, ya que al observar sólo una pequeña fracción continua del espacio/tiempo debería, en teoría, obtenerse la función completa. Por ello, propuso la versión de Matérn como una generalización capaz de ajustarse a los procesos físicos de forma más realista.

Resumen

La función de covarianza de Matérn puede verse como una generalización de la función de base radial gaussiana . Contiene incluso el núcleo exponencial absoluto, que da resultados radicalmente diferentes, y es más capaz de capturar procesos físicos debido a su diferenciabilidad finita (para $\nu$ ).

En cuanto a lo misterioso de la aparición de la función de Bessel, me encantaría que se intuyera más, pero supongo que es precisamente su comportamiento (asintótico) en $\nu$ que la hizo útil en este contexto y llevó a Stein a definir la función de covarianza de Matérn. Esto, por supuesto, no excluye la posibilidad de que haya un hermoso argumento en cuanto a por qué todo eso es cierto.

3voto

CeePlusPlus Puntos 101

Hay un aspecto de las funciones de covarianza de Matérn que las hace muy útiles para los sistemas físicos:

Describe una señal eléctrica con ruido blanco gaussiano que pasa por un filtro RC de paso bajo. La señal de salida está correlacionada en el tiempo según la función de covarianza de Matérn $\nu= 1/2$ . Cuando esta señal de salida pasa un segundo filtro de paso bajo, la nueva salida es la función de covarianza Matérn $\nu=3/2$ .

En general, una serie de $n$ filtros de paso bajo sobre el ruido blanco gaussiano tiene el efecto de correlacionarlo según la función Matérn $\nu=(2n-1)/2$ .

En los sistemas físicos, a menudo se encuentran influencias según un decaimiento exponencial debido a uno o más mecanismos físicos independientes, que conducen a las funciones de covarianza de Matérn.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X