24 votos

¿Qué es una distribución sobre funciones?

Estoy leyendo un libro de texto Procesos gaussianos para el aprendizaje automático de C.E. Rasmussen y C.K.I. Williams y tengo problemas para entender qué hace distribución sobre funciones quiero decir. En el libro de texto, se da el ejemplo de que hay que imaginar una función como un vector muy largo (de hecho, debería ser infinitamente largo ). Entonces me imagino una distribución sobre funciones como una distribución de probabilidad dibujada "sobre" tales valores del vector. ¿Sería entonces una probabilidad de que una función tome este valor en particular? ¿O sería una probabilidad de que una función tome un valor que esté en un rango determinado? ¿O es la distribución sobre funciones una probabilidad asignada a una función entera?

Citas del libro de texto:

Capítulo 1: Introducción, página 2

Un proceso gaussiano es una generalización de la probabilidad gaussiana gaussiana. Mientras que una distribución de probabilidad describe variables aleatorias aleatorias que son escalares o vectores (para distribuciones multivariantes), un proceso estocástico rige las propiedades de las funciones. Dejando a un lado la sofisticación matemática, se puede pensar en una función como un vector muy largo, cada entrada del vector el valor de la función f(x) para una entrada x determinada. Resulta que, aunque esta idea es un poco ingenua, es sorprendentemente lo que necesitamos. De hecho, la cuestión de cómo computacionalmente con estos objetos de dimensión infinita tiene la resolución más tiene la resolución más agradable que se pueda imaginar: si sólo preguntamos por las propiedades de la función en un número finito de puntos, entonces la inferencia en el proceso gaussiano te dará la misma respuesta si ignoras los infinitos otros puntos, como si los hubiera tenido todos en cuenta. en cuenta.

Capítulo 2: Regresión, página 7

Hay varias formas de interpretar la regresión de procesos gaussianos (GP) regresión. Se puede pensar en un proceso gaussiano como la definición de un distribución sobre funciones y la inferencia tiene lugar directamente en el espacio de funciones, el punto de vista del espacio de funciones.


De la pregunta inicial:

Hice esta imagen conceptual para intentar visualizarlo por mí mismo. No estoy seguro de que la explicación que me he hecho sea correcta.

enter image description here


Después de la actualización:

Tras la respuesta de Gijs He actualizado la imagen para que conceptualmente sea algo más parecido a esto:

enter image description here

17voto

keldar Puntos 103

El concepto es un poco más abstracto que una distribución habitual. El problema es que estamos acostumbrados al concepto de distribución sobre $\mathbb{R}$ que normalmente se muestra como una línea, y luego ampliarlo a una superficie $\mathbb{R}^2$ y así sucesivamente hasta las distribuciones sobre $\mathbb{R}^n$ . Pero el espacio de funciones no se puede representar como un cuadrado o una línea o un vector. No es un crimen pensarlo así, como haces tú, pero la teoría que funciona en $\mathbb{R}^n$ En el espacio de las funciones, los parámetros de distancia, vecindad, etc. (lo que se denomina topología del espacio) no son los mismos. Así que dibujarlo como un cuadrado puede dar intuiciones erróneas sobre ese espacio.

Se puede considerar el espacio de las funciones como una gran colección de funciones, quizá una bolsa de cosas. La distribución aquí te da las probabilidades de extraer un subconjunto de esas cosas. La distribución dirá: la probabilidad de que tu próxima extracción (de una función) esté en este subconjunto es, por ejemplo, del 10%. En el caso de un proceso gaussiano sobre funciones en dos dimensiones, se podría preguntar, dado un x -y un intervalo de y -valores, se trata de un pequeño segmento de recta vertical, ¿cuál es la probabilidad de que una función (aleatoria) pase por esta pequeña recta? Será una probabilidad positiva. Así que el proceso gaussiano especifica una distribución (de probabilidad) sobre un espacio de funciones. En este ejemplo, el subconjunto del espacio de funciones es el subconjunto que pasa por el segmento de recta.

Otra confusa convención de nomenclatura es que un distribución se suele especificar mediante un función de densidad como la forma de campana con la distribución normal. En este caso, el área bajo la función de distribución indica la probabilidad de un intervalo. Sin embargo, esto no funciona para todas las distribuciones y, en particular, en el caso de las funciones (no $\mathbb{R}$ como con las distribuciones normales), esto no funciona en absoluto. Eso significa que usted no será capaz de escribir esta distribución (como se especifica por el proceso de Gauss) como una función de densidad.

17voto

OmaL Puntos 106

Su pregunta ya ha sido formulada, y bellamente respondida, en el sitio web de Mathematics SE:

https://math.stackexchange.com/questions/2297424/extending-a-distribution-over-samples-to-a-distribution-over-functions

Parece que no estás familiarizado con los conceptos de Medidas gaussianas en espacios de dimensión infinita Por lo tanto, intentaré que sea lo más sencillo posible.

Ya sabes cómo definir probabilidades sobre números reales (variables aleatorias) y sobre vectores (de nuevo, variables aleatorias, aunque normalmente las llamemos vectores aleatorios). Ahora queremos introducir una medida de probabilidad sobre un espacio vectorial de dimensión infinita: por ejemplo, el espacio $L^2([0,1])$ de funciones cuadradas integrables sobre $I=[0,1]$ . Las cosas se complican ahora, porque cuando definimos la probabilidad en $\mathbb{R}$ o $\mathbb{R}^n$ nos ayudó el hecho de que la medida de Lebesgue está definida en ambos espacios. Sin embargo, no existe ninguna medida de Lebesgue sobre $L^2$ (o cualquier espacio de Banach infinito). Existen varias soluciones a este enigma, la mayoría de las cuales requieren una buena familiaridad con el Análisis Funcional.

Sin embargo, también existe un sencillo "truco" basado en el Teorema de extensión de Kolmogorov que es básicamente la forma en que se introducen los procesos estocásticos en la mayoría de los cursos de probabilidad que no son fuertemente teóricos de la medida. Ahora voy a ser muy y no rigurosos, y me limito al caso de los procesos gaussianos. Si quieres una definición más general, puedes leer la respuesta anterior o consultar el enlace de Wikipedia. El teorema de extensión de Kolmogorov, aplicado a tu caso de uso concreto, dice más o menos lo siguiente:

  • supongamos que, para cada conjunto finito de puntos $S_n=\{ t_1, \dots ,t_n\} \subset I$ , $\mathbf{x}_n=(x(t_1),\dots,x(t_n))$ tiene el distribución multivariante de Gauss
  • supongamos ahora que para todos los posibles $S_n, S_m, \enspace S_n\subset S_m $ las correspondientes funciones de distribución de probabilidad $f_{S_n}(x_1,\dots,x_n)$ y $f_{S_m}(x_1,\dots,x_{n},x_{n+1},\dots,x_m)$ son coherente es decir, si integro $f_{S_m}$ con respecto a las variables que están en $S_m$ pero no en $S_n$ entonces la pdf resultante es $f_{S_n}$ :

$$ \int_{\mathbb{R}^{n-m+1}}f_{S_m}(x_1,\dots,x_{n},x_{n+1},\dots,x_m)\text{d}x_{n+1}\dots \text{d}x_m=f_{S_n}(x_1,\dots,x_n) $$

  • entonces existe un proceso estocástico $X$ es decir, una variable aleatoria en el espacio de funciones $L^2$ tal que, para cada conjunto finito $S_n$ la distribución de probabilidad de esos $n$ puntos es gaussiano multivariante.

El teorema real es mucho más general, pero supongo que esto es lo que buscabas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X