7 votos

Optimización de una función "caja negra": Regresión lineal u optimización bayesiana... ¿cuál es la diferencia?

Objetivo: Tengo una función $f(x,y)=z$ (dos variables sólo a título ilustrativo) del que no sé casi nada: tiene un dominio compacto que puedo determinar, es no negativo y está acotado por encima. Mi objetivo es encontrar el valor máximo $f(x,y)$ asume su dominio. Puedo consultar la función y conozco los valores en algunos puntos: $f(x_1, y_1)=z_1, f(x_2, y_2)=z_2,..., f(x_n, y_n)=z_n$ .

Optimización mediante regresión lineal:

En el pasado he utilizado la regresión lineal (y métodos relacionados como el lazo) para modelar funciones como ésta; éste es el método con el que me siento muy cómodo. Normalmente, podría tratar de encontrar un polinomio (de grado $k$ ) que modela con relativa precisión los datos. El resultado final sería decir que:

$$f(x,y)\approx \beta_1 + \beta_2 x + \beta_3 y + \beta_4 x^2 + \beta_5 xy + \beta_6 y^2 + ... + \beta_{m}y^{k}.$$

La determinación de los coeficientes se realiza resolviendo el ecuaciones normales . El "mejor grado" del polinomio puede determinarse mediante $k$ -validación cruzada. Una vez determinado el "mejor" polinomio, se puede elegir cualquiera de los métodos para optimizarlo (método de Newton, descenso de gradiente, subida de colina, etc.). Entonces, si todo va bien, el valor óptimo del polinomio corresponde a un valor óptimo de $f(x,y)$ .

Optimización bayesiana:

Hace poco, describía esta técnica (regresión lineal) a un colega que me preguntó: "¿Cuál es la diferencia entre eso y la optimización bayesiana?". Llevo un par de días intentando responder a esta pregunta, y hasta ahora no tengo nada realmente concluyente.

Después de leer este blog , tratando de leer este y se atasca en la lectura este documento Creo que entiendo lo siguiente sobre BO:

  1. Comience con una idea previa (una conjetura sobre la familia de funciones a la que pertenece la caja negra... o al menos alguna familia de funciones que usted cree que podría describir $f$ bueno). Parece que usando un Proceso gaussiano como un prior es popular.

  2. Especifique lo que sea necesario para construir su prioridad (para GP esto es una función de covarianza).

  3. A medida que se avanza, se mantienen dos funciones evolutivas, una función "media" $m(x,y)$ y una función de "intervalo de confianza" $c(x,y)$ . Básicamente, se puede predecir el valor en cualquier punto evaluando $m(x,y)$ y confía en que $f(x,y)\in [m(x,y)-c(x,y), m(x,y)+c(x,y)]$ .

  4. La optimización bayesiana proporciona una forma sistemática de actualizar/explotar el modelo seleccionando alternativamente puntos en los que el intervalo de confianza es amplio (se tiene mucha incertidumbre sobre el valor) o en puntos óptimos del modelo $m(x,y)$ .

Mi pregunta: ¿Es justo/correcto decir que la principal diferencia entre la optimización bayesiana y la simple optimización del modelo de regresión lineal es que la optimización bayesiana proporciona la forma sistemática de muestreo con el objetivo de optimizar el modelo y reducir la incertidumbre, mientras que el modelo de regresión lineal ignora la idea de incertidumbre y no proporciona explícitamente un medio para actualizar el modelo?

Dicho de otro modo, ¿es el modelo de regresión lineal un ejemplo de lo que podría ser una función "media" $m(x,y)$ en la optimización bayesiana?

Si me quedo con la regresión lineal, especifico cómo calcular la incertidumbre y proporciono un medio para actualizar/mejorar el modelo (explotar/explorar), ¿estoy haciendo simplemente optimización bayesiana (sin llamarla así)?

Antecedentes: Mi formación es en matemáticas puras (teoría de grafos), pero mi nuevo trabajo me obliga a trabajar con muchos datos (por lo que estoy aprendiendo estadística por mi cuenta). Teniendo esto en cuenta, mi vocabulario estadístico es algo limitado (por lo que agradezco las respuestas que eviten la terminología técnica o expliquen brevemente cualquier terminología técnica utilizada); por ejemplo, el lunes fue la primera vez que oí/leí la palabra "previo" utilizada en un sentido estadístico y todavía no estoy 100% seguro de entenderla correctamente.

5voto

user777 Puntos 10934

Su comprensión es correcta.

BO mide intrínsecamente la incertidumbre de las regiones de su espacio de búsqueda. Y la función de adquisición gobierna el compromiso entre explorar un punto en una región con alta incertidumbre frente a explorar más en una región con menor incertidumbre, pero con un valor más alto.

Por el contrario, los modelos de regresión vainilla asumen una varianza igual - aunque se puede localizar el máximo de un modelo polinómico dentro de alguna caja, la búsqueda será excesivamente local y no tendrá una gran compensación de exploración-explotación.

Pero esto sólo repite lo que ya sabes.

Las funciones medias típicas en BO (y GP en general) son o bien 0 o bien otra constante, y todo el trabajo pesado lo hace la función del núcleo. Esto es sobre todo un truco computacional, porque en este caso las predicciones se hacen fácilmente a través del álgebra lineal; de lo contrario, hay que recurrir a la simulación.

El Documento de Jones de 1998 compara la GP y la regresión polinómica en la página 464. No es estrictamente el mismo modelo que propones (elegir términos polinómicos por CV), pero es coherente con tus objetivos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X