Supongamos que $\left(Z_0, Z_1, \ldots, Z_n\right)$ es un vector que se supone que tiene una distribución multivariante de media desconocida $(\mu, \mu, \ldots, \mu)$ y conocido matriz de varianza-covarianza $\Sigma$ . Observamos $\left(z_1, z_2, \ldots, z_n\right)$ de esta distribución y desea predecir $z_0$ a partir de esta información utilizando un predictor lineal insesgado:
- Lineal significa que la predicción debe tener la forma $\hat{z_0} = \lambda_1 z_1 + \lambda_2 z_2 + \cdots + \lambda_n z_n$ para los coeficientes $\lambda_i$ por determinar. Estos coeficientes pueden depender a lo sumo de lo que se conoce de antemano: a saber, las entradas de $\Sigma$ .
Este predictor también puede considerarse una variable aleatoria $\hat{Z_0} = \lambda_1 Z_1 + \lambda_2 Z_2 + \cdots + \lambda_n Z_n$ .
- Sin prejuicios significa la expectativa de $\hat{Z_0}$ es igual a su media (desconocida) $\mu$ .
Escribir las cosas da cierta información sobre los coeficientes:
$$\eqalign{ \mu &= E[\hat{Z_0}] = E[\lambda_1 Z_1 + \lambda_2 Z_2 + \cdots + \lambda_n Z_n] \\ &= \lambda_1 E[Z_1] + \lambda_2 E[Z_2] + \cdots + \lambda_n E[Z_n] \\ &= \lambda_1 \mu + \cdots + \lambda_n \mu \\ &= \left(\lambda_1 + \cdots + \lambda_n\right) \mu. \\ }$$
La segunda línea se debe a la linealidad de la expectativa y todo el resto es simple álgebra. Como se supone que este procedimiento funciona independientemente del valor de $\mu$ evidentemente los coeficientes tienen que sumar la unidad. Escribiendo los coeficientes en notación vectorial $\lambda = (\lambda_i)'$ esto se puede escribir claramente $\mathbf{1}\lambda=1$ .
Entre el conjunto de todos esos predictores lineales insesgados, buscamos uno que se desvíe lo menos posible del valor real medido en el cuadrado medio de la habitación. Esto, de nuevo, es un cálculo. Se basa en la bilinealidad y la simetría de la covarianza, cuya aplicación es responsable de las sumas en la segunda línea:
$$\eqalign{ E[(\hat{Z_0} - Z_0)^2] &= E[(\lambda_1 Z_1 + \lambda_2 Z_2 + \cdots + \lambda_n Z_n - Z_0)^2] \\ &= \sum_{i=1}^n \sum_{j=1}^n \lambda_i \lambda_j \text{var}[Z_i, Z_j]-2\sum_{i=1}^n\lambda_i \text{var}[Z_i, Z_0] + \text{var}[Z_0, Z_0] \\ &= \sum_{i=1}^n \sum_{j=1}^n \lambda_i \lambda_j \Sigma_{i,j} - 2\sum_{i=1}^n\lambda_i\Sigma_{0,i} + \Sigma_{0,0}. }$$
De ahí que los coeficientes puedan obtenerse minimizando esta forma cuadrática sujeta a la restricción (lineal) $\mathbf{1}\lambda=1$ . Esto se resuelve fácilmente utilizando el método de los multiplicadores de Lagrange, dando lugar a una lineal sistema de ecuaciones, las "ecuaciones de Kriging".
En la aplicación, $Z$ es un proceso estocástico espacial ("campo aleatorio"). Esto significa que para cualquier conjunto de ubicaciones fijas (no aleatorias) $\mathbf{x_0}, \ldots, \mathbf{x_n}$ el vector de valores de $Z$ en esos lugares, $\left(Z(\mathbf{x_0}), \ldots, Z(\mathbf{x_n})\right)$ es aleatorio con algún tipo de distribución multivariante. Escribe $Z_i = Z(\mathbf{x_i})$ y aplicar el análisis anterior, suponiendo que los medios del proceso en absoluto $n+1$ lugares $\mathbf{x_i}$ son los mismos y suponiendo que la matriz de covarianza de los valores del proceso en estos $n+1$ se conoce con certeza.
Interpretemos esto. Bajo los supuestos (incluyendo la media constante y la covarianza conocida), los coeficientes determinan la varianza mínima alcanzable por cualquier estimador lineal. Llamemos a esta varianza $\sigma_{OK}^2$ ("OK" es para "kriging ordinario"). Depende únicamente de la matriz $\Sigma$ . Nos dice que si tomáramos muestras repetidas de $\left(Z_0, \ldots, Z_n\right)$ y utilizar estos coeficientes para predecir el $z_0$ de los valores restantes cada vez, entonces
-
Por término medio, nuestras predicciones serían correctas.
-
Normalmente, nuestras predicciones del $z_0$ se desviaría alrededor de $\sigma_{OK}$ a partir de los valores reales del $z_0$ .
Hay que decir mucho más antes de que esto pueda aplicarse a situaciones prácticas como la estimación de una superficie a partir de datos puntuales: necesitamos suposiciones adicionales sobre cómo varían las características estadísticas del proceso espacial de un lugar a otro y de una realización a otra (aunque, en la práctica, normalmente sólo se dispondrá de una realización). Pero esta exposición debería ser suficiente para seguir cómo la búsqueda de un "mejor" predictor lineal insesgado ("BLUP") conduce directamente a un sistema de ecuaciones lineales.
Por cierto, el kriging, tal como se practica habitualmente, no es exactamente lo mismo que la estimación por mínimos cuadrados, porque $\Sigma$ se estima en un procedimiento preliminar (conocido como "variografía") utilizando los mismos datos. Esto es contrario a las suposiciones de esta derivación, que asumió $\Sigma$ fue conocido (y a fortiori independiente de los datos). Por lo tanto, desde el principio, el kriging tiene algunos defectos conceptuales y estadísticos. Los profesionales reflexivos siempre han sido conscientes de ello y han encontrado diversas formas creativas de (intentar) justificar las incoherencias. (Teniendo lotes de datos puede ayudar mucho). Ahora existen procedimientos para estimar simultáneamente $\Sigma$ y predecir una colección de valores en lugares desconocidos. Requieren supuestos un poco más fuertes (normalidad multivariada) para lograr esta hazaña.