Digamos que tengo dos conjuntos de observaciones (puntos de datos), $\mathbf U_1$ y $\mathbf U_2$ . Cada uno de estos conjuntos de datos consiste en una colección de puntos (no necesariamente del mismo número), por ejemplo $\mathbf U_1=\{\mathbf u_{1,1},..\mathbf u_{1,N}\}^\top$ donde $\mathbf u_{1,i} = \{x_{1,i},y_{1,i}\}$ .
Quiero modelar la relación entre $x$ y $y$ utilizando un proceso gaussiano, y preguntar si las funciones (distribuciones de) inferidas para $\mathbf U_1$ y $\mathbf U_2$ son más diferentes de lo que cabría esperar por azar.
¿Existe una forma eficaz de hacerlo?
Con más detalle:
Después de calcular mi regresión GP, tendré un modelo para $y_1 = f_1(x_1)$ et $y_2 = f_2(x_2)$ , donde
$$ f_1 \sim \mathcal{GP}[\mu_1(x),\Sigma_1(x,x')] $$
$$ f_2 \sim \mathcal{GP}[\mu_2(x),\Sigma_2(x,x')] $$
El kernel a priori puede ser el mismo para ambas regresiones, o puede adaptarse por separado para cada una de ellas (lo que facilite la respuesta a esta pregunta). Podemos suponer que el (los) núcleo(s) a priori está(n) parametrizado(s) por un conjunto limitado de hiperparámetros y podría(n) estar algo mal especificado(s).
En concreto, me gustaría poder preguntar: Supongamos para una hipótesis nula que $f_1$ y $f_2$ son los mismos. Si infiero $(\mu_1,\Sigma_1)$ et $(\mu_2,\Sigma_2)$ y encontrar que los dos conjuntos de parámetros son ligeramente diferentes, ¿cuál es la probabilidad de que estas diferencias se observen por azar bajo la hipótesis nula?
Limitaciones prácticas
En el problema con el que estoy trabajando en este momento, la regresión GP es apenas práctica después de aplicar la bolsa habitual de trucos numéricos, por lo que cualquier tipo de muestreo de fuerza bruta sería desagradable. Por ejemplo, la covarianza posterior de rango completo podría no caber en la memoria, pero puedo trabajar con una aproximación de la misma y calcular productos matriciales-vectoriales, etc. Complejidad cúbica o superior en $N$ es la derecha-hacia fuera. (incluso si colapsamos los datos a $M$ pseudopuntos, la complejidad cúbica sigue sin ser suficiente).
Además, podemos suponer que las observaciones individuales $\mathbf u_{\cdot,i}$ no son independientes, y casi seguramente tienen algunas dependencias extrañas entre ellas (así como dependencias de otras variables no medidas). Por lo tanto, no creo que las respuestas a esta pregunta puede ayudar.
Si es que importa: En realidad no estoy trabajando con un proceso gaussiano lineal, sino con observaciones no lineales y no gaussianas de un proceso gaussiano latente. Estoy ajustando el posterior utilizando Bayes variacional. Uno puede, si es necesario, dividir el previo de la posterior para obtener algunos pseudodatos gaussianos, que luego permite que esto sea visto como una regresión lineal GP en los pseudodatos (pero ahora con un modelo bastante más complicado para los errores de observación).
Una pregunta posiblemente equivalente:
La regresión GP devuelve una distribución sobre las posibles funciones $y=f(x)$ . Sin embargo, la inferencia suele ser aproximada y el núcleo suele tener una parametrización restrictiva en términos de hiperparámetros que puede no ser del todo correcta.
¿En qué condiciones es posible interpretar el GP posterior en $f(x)$ como una distribución "probablemente verdadera" de $f(x)$ de manera que tiene sentido preguntarse: ¿cuál es la probabilidad de que $\|f(x)-g(x)\|<\epsilon$ para alguna otra función conocida y especificada $g(x)$ ?
Me parece que el resultado de la regresión GP no puede ser interpretado de esta manera en general, ya que un modelo a priori o de observación mal especificado puede conducir a estimaciones muy inexactas de $f(x)$ y la incertidumbre que conlleva.
Pero, muy pocos modelos pueden lograr una especificación completa y precisa de la covarianza previa. Parece, pues, que lo que necesitamos son límites adecuados que nos permitan hacer una conjetura razonable sobre lo errónea que podría ser nuestra posterior, y sobre la confianza que deberíamos tener respecto a las cuestiones sobre $\|f(x)-g(x)\|$ .
Editar 1:
Como un comentario me pidió que explicara la hipótesis nula, la volveré a exponer aquí de forma más compacta:
Tengo dos conjuntos de datos $\mathbf U_1$ y $\mathbf U_2$ Se trata de observaciones por parejas. $(x,y)$ . Estoy interesado en modelar $y = f(x)$ . Utilizo la regresión del proceso gaussiano para estimar $f_1 \sim \mathcal{GP}[\mu_1(x),\Sigma_1(x,x')]$ y $f_2 \sim \mathcal{GP}[\mu_2(x),\Sigma_2(x,x')]$ de $\mathbf U_1$ y $\mathbf U_2$ respectivamente.
He observado que las distribuciones posteriores inferidas de GP para $f_1$ y $f_2$ son sustancialmente diferentes. Sin embargo, no estoy seguro de que esto se deba al azar. Podría ser que haya una incertidumbre significativa en la propia regresión de la GP.
Mi hipótesis nula es que ambas son muestras de la misma función $f_1=f_2=f$ y que las diferencias observadas en las distribuciones posteriores inferidas se deben al ruido. ¿De qué pruebas/procedimientos dispongo para rechazar esta hipótesis nula? Si se requieren suposiciones o modificaciones adicionales a mi enfoque para concretarla, ¿cuáles son?