Estoy leyendo sobre los procesos gaussianos (GP) y, concretamente, sobre los procesos gaussianos escalables, a saber, el proceso gaussiano variable estocástico (SVGP).
He estado usando la GPFlow-library para implementar la regresión GP para big data, y el código de ejemplo que he estado usando se puede encontrar en esta fuente: https://gpflow.github.io/GPflow/develop/notebooks/advanced/gps_for_big_data.html
Veo que en este contexto se utiliza el término "ubicaciones inductoras", que se explican en el tutorial como, cito:
La idea principal de SVGP es aproximar la verdadera GP posterior con una GP condicionada a un pequeño conjunto de valores "inductores". Este pequeño conjunto puede considerarse como un resumen del conjunto de datos más amplio.
Más adelante, en el mismo código de ejemplo, los autores hablan de "minibatches", que supongo que es la misma idea que en el contexto del aprendizaje profundo: se utiliza un pequeño subconjunto de los datos para realizar un entrenamiento iterativo similar al descenso de gradiente para el modelo, porque no se pueden utilizar todos los datos a la vez debido a problemas computacionales.
Mi confusión proviene de la diferencia entre los puntos de datos "lugar de inducción" y "minilotes". No me queda del todo claro el distinto papel de estos subconjuntos de datos, porque parecen muy similares en su finalidad. Creo que esto me quedaría claro si leyera un par de artículos y un libro sobre el tema, pero quizá podría ahorrarme semanas de tiempo y obtener la idea general de la comunidad :)
Así que mi pregunta es: ¿Cuál es la diferencia entre el minilote y la localización inductora -subsets de los datos en SVGP? ¿Pueden ser iguales?