He estado aprendiendo acerca de Gauss proceso de regresión a partir de videos en línea y notas de la conferencia, a mi entender es que si tenemos un conjunto de datos con $n$ señala a continuación, suponemos que los datos son muestreados de una $n$-dimensiones multivariante de Gauss. Así que mi pregunta es en caso de que $n$ es de 10 millones no Gaussiano proceso de regresión todavía funcionan? Será el núcleo de la matriz no ser enormes de representación en el proceso completamente ineficiente? Si es así ¿hay técnicas para lidiar con esto, como el muestreo del conjunto de datos en repetidas ocasiones? ¿Cuáles son algunos buenos métodos para tratar con estos casos?
Respuesta
¿Demasiados anuncios?Generalmente, lo que puedes hacer es entrenar a los Procesos de Gauss en las submuestras de su conjunto de datos (embolsado). El embolsado se implementa en sk aprender y se puede utilizar fácilmente. Ver por ejemplo la documentación.
Llamar a $n$ el número de observaciones, $n_{bags}$ el número de bolsas de usar y $n_{p}$ el número de puntos por el bolso, esto permite cambiar el tiempo de entrenamiento de una $O(n^3)$$O(n_{bags}n_{p}^3)$. Por lo tanto, con pequeñas bolsas, pero usando todos los datos, se puede lograr una mucho menor tiempo de entrenamiento. Lamentablemente, esto a menudo reduce el rendimiento del modelo.
Aparte de embolsado técnicas, hay algunos en activo de investigación sobre la fabricación de la Gaussiana Proceso de Regresiones escalable. El artículo Núcleo de Interpolación para Escalable Estructurado de Gauss Procesos (BESO-GP) propone reducir el tiempo de formación a un $O(n)$ y viene con un código de matlab.