Objetivo: Tengo una función $f(x,y)=z$ (dos variables sólo a título ilustrativo) del que no sé casi nada: tiene un dominio compacto que puedo determinar, es no negativo y está acotado por encima. Mi objetivo es encontrar el valor máximo $f(x,y)$ asume su dominio. Puedo consultar la función y conozco los valores en algunos puntos: $f(x_1, y_1)=z_1, f(x_2, y_2)=z_2,..., f(x_n, y_n)=z_n$ .
Optimización mediante regresión lineal:
En el pasado he utilizado la regresión lineal (y métodos relacionados como el lazo) para modelar funciones como ésta; éste es el método con el que me siento muy cómodo. Normalmente, podría tratar de encontrar un polinomio (de grado $k$ ) que modela con relativa precisión los datos. El resultado final sería decir que:
$$f(x,y)\approx \beta_1 + \beta_2 x + \beta_3 y + \beta_4 x^2 + \beta_5 xy + \beta_6 y^2 + ... + \beta_{m}y^{k}.$$
La determinación de los coeficientes se realiza resolviendo el ecuaciones normales . El "mejor grado" del polinomio puede determinarse mediante $k$ -validación cruzada. Una vez determinado el "mejor" polinomio, se puede elegir cualquiera de los métodos para optimizarlo (método de Newton, descenso de gradiente, subida de colina, etc.). Entonces, si todo va bien, el valor óptimo del polinomio corresponde a un valor óptimo de $f(x,y)$ .
Optimización bayesiana:
Hace poco, describía esta técnica (regresión lineal) a un colega que me preguntó: "¿Cuál es la diferencia entre eso y la optimización bayesiana?". Llevo un par de días intentando responder a esta pregunta, y hasta ahora no tengo nada realmente concluyente.
Después de leer este blog , tratando de leer este y se atasca en la lectura este documento Creo que entiendo lo siguiente sobre BO:
-
Comience con una idea previa (una conjetura sobre la familia de funciones a la que pertenece la caja negra... o al menos alguna familia de funciones que usted cree que podría describir $f$ bueno). Parece que usando un Proceso gaussiano como un prior es popular.
-
Especifique lo que sea necesario para construir su prioridad (para GP esto es una función de covarianza).
-
A medida que se avanza, se mantienen dos funciones evolutivas, una función "media" $m(x,y)$ y una función de "intervalo de confianza" $c(x,y)$ . Básicamente, se puede predecir el valor en cualquier punto evaluando $m(x,y)$ y confía en que $f(x,y)\in [m(x,y)-c(x,y), m(x,y)+c(x,y)]$ .
-
La optimización bayesiana proporciona una forma sistemática de actualizar/explotar el modelo seleccionando alternativamente puntos en los que el intervalo de confianza es amplio (se tiene mucha incertidumbre sobre el valor) o en puntos óptimos del modelo $m(x,y)$ .
Mi pregunta: ¿Es justo/correcto decir que la principal diferencia entre la optimización bayesiana y la simple optimización del modelo de regresión lineal es que la optimización bayesiana proporciona la forma sistemática de muestreo con el objetivo de optimizar el modelo y reducir la incertidumbre, mientras que el modelo de regresión lineal ignora la idea de incertidumbre y no proporciona explícitamente un medio para actualizar el modelo?
Dicho de otro modo, ¿es el modelo de regresión lineal un ejemplo de lo que podría ser una función "media" $m(x,y)$ en la optimización bayesiana?
Si me quedo con la regresión lineal, especifico cómo calcular la incertidumbre y proporciono un medio para actualizar/mejorar el modelo (explotar/explorar), ¿estoy haciendo simplemente optimización bayesiana (sin llamarla así)?
Antecedentes: Mi formación es en matemáticas puras (teoría de grafos), pero mi nuevo trabajo me obliga a trabajar con muchos datos (por lo que estoy aprendiendo estadística por mi cuenta). Teniendo esto en cuenta, mi vocabulario estadístico es algo limitado (por lo que agradezco las respuestas que eviten la terminología técnica o expliquen brevemente cualquier terminología técnica utilizada); por ejemplo, el lunes fue la primera vez que oí/leí la palabra "previo" utilizada en un sentido estadístico y todavía no estoy 100% seguro de entenderla correctamente.