15 votos

Fusionando observaciones en el proceso gaussiano

Estoy usando Gauss proceso (GP) para la regresión.

Mi problema es bastante común para dos o más puntos de datos $\vec{x}^{(1)},\vec{x}^{(2)},\ldots$ a estar cerca el uno del otro, relativamente a la longitud de las escalas del problema. También, las observaciones pueden ser muy ruidosos. Para acelerar los cálculos y mejorar la precisión de la medición, parece natural para combinar/integrar grupos de puntos que están cerca el uno del otro, mientras me importa acerca de las predicciones a gran escala de longitud.

Me pregunto ¿qué es un rápido, pero semi-principios de hacerlo.

Si dos puntos de datos eran perfectamente superpuestas, $\vec{x}^{(1)} = \vec{x}^{(2)}$, y la observación de ruido (es decir, la probabilidad) es Gaussiano, posiblemente heteroskedastic pero conocido, el natural modo de proceder parece unirlos en un único punto de datos con:

  • $\vec{\bar{x}} \equiv \vec{x}^{(k)}$ $k=1,2$.

  • Valor observado $\bar{y}$ que es un promedio de los valores observados $y^{(1)}, y^{(2)}$ ponderado por su precisión relativa: $\bar{y} = \frac{\sigma_y^2(\vec{x}^{(2)})}{\sigma_y^2(\vec{x}^{(1)}) + \sigma_y^2(\vec{x}^{(2)})} y^{(1)} + \frac{\sigma_y^2(\vec{x}^{(1)})}{\sigma_y^2(\vec{x}^{(1)}) + \sigma_y^2(\vec{x}^{(2)})} y^{(2)}$.

  • El ruido asociado con la observación de igual a: $\sigma_y^2(\bar{x}) = \frac{\sigma_y^2(\vec{x}^{(1)}) \sigma_y^2(\vec{x}^{(2)})}{\sigma_y^2(\vec{x}^{(1)}) + \sigma_y^2(\vec{x}^{(2)})}$.

Sin embargo, ¿cómo debo combinar dos puntos que están cerca pero no superpuestas?

  • Creo que el $\vec{\bar{x}}$ todavía debe ser ponderado promedio de las dos posiciones, utilizando de nuevo la fiabilidad relativa. La justificación es un centro de masa de argumento (es decir, pensar en una observación tan precisa como una pila de menos precisas observaciones).

  • Para $\bar{y}$ misma fórmula anterior.

  • Para el ruido asociado a la observación, me pregunto si, además de la fórmula de arriba, debo añadir un término de corrección para el ruido, porque me estoy moviendo el punto de datos alrededor. Básicamente, me gustaría conseguir un incremento en la incertidumbre que está relacionado con a $\sigma_f^2$ $\ell^2$ (respectivamente, de la señal y la varianza de la longitud de escala de la función de covarianza). No estoy seguro de la forma de este término, pero tengo tentativa algunas ideas de cómo se calcula dada la función de covarianza.

Antes de continuar, me preguntaba si ya había algo ahí fuera; y si esto parece ser una buena manera de proceder, o hay mejores rápidos métodos.

Lo más cercano que pude encontrar en la literatura en este documento: E. Snelson y Z. Ghahramani, Dispersas Gaussiano Procesos utilizando Pseudo-entradas, PINS '05; pero su método es (relativamente) que participan, que requieren de una optimización para encontrar la pseudo-entradas.

6voto

getmizanur Puntos 290

Gran pregunta y lo que usted está sugiriendo suena razonable. Sin embargo, personalmente, me ha de proceder de manera diferente con el fin de ser eficiente. Como usted dijo que dos de los puntos que están cerca proporcionan poca información adicional y, por tanto, los grados efectivos de libertad del modelo es menor que el número de puntos de datos observados. En tal caso, puede ser vale la pena usar Nystroms método que se describe así en el marco del PROGRAMA (capítulo sobre la escasa aproximaciones puede ser visto http://www.gaussianprocess.org/gpml/). El método es muy fácil de implementar y recientemente se ha demostrado ser muy precisa, por Rudi et al. (http://arxiv.org/abs/1507.04717)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X