¿Por qué son Gaussiano proceso de los modelos no-paramétricos?

Question

¿Por qué son Gaussiano proceso de los modelos no-paramétricos?

Preguntado el 27 de Diciembre, 2012: Cuando se hizo la pregunta
1656 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy un poco confundido. ¿Por qué son Gaussiano procesos llamados no paramétrica de modelos?

Se asume que los valores funcionales, o un subconjunto de ellos, tienen una Gaussiana antes con media 0 y la covarianza de la función dada como el núcleo de la función. Estas funciones kernel de sí mismos tienen algunos parámetros (es decir, hyperparameters).

Así que ¿por qué son llamados no paramétrica de modelos?

Preguntado el 27 de Diciembre, 2012 por Shayne

Answer 1

2 Respuestas

Answer 2

32voto

Andre Miller Puntos 182

Voy a escribir el prólogo de esta diciendo que no siempre es claro qué se entiende por "paramétrica" o "semiparamétrico", etc. En los comentarios, parece probable que whuber tiene algunos definición formal en la mente (algo así como la elección de un modelo de $M_\theta$ a partir de algunos de la familia $\{M_\theta: \theta \in \Theta\}$ donde $\Theta$ es infinito-dimensional), pero yo voy a ser bastante informal. Algunos podrían argumentar que un test no paramétrico método es uno donde el número efectivo de parámetros que aumenta el uso de los datos. Creo que hay un vídeo en el que videolectures.net donde (creo) Pedro Orbanz da cuatro o cinco diferentes puntos de vista sobre cómo podemos definir "no paramétricos."

Ya creo que sé qué tipo de cosas que usted tiene en mente, por simplicidad vamos a suponer que usted está hablando sobre el uso de Gauss procesos para la regresión, en una forma típica: tenemos datos de entrenamiento $(Y_i, X_i), i = 1, ..., n$ y estamos interesados en el modelado de la media condicional $E(Y|X = x) := f(x)$. Escribimos $$ Y_i = f(X_i) + \epsilon_i $$ y tal vez estamos tan audaz como para suponer que el $\epsilon_i$ son iid y se distribuye normalmente, $\epsilon_i \sim N(0, \sigma^2)$. $X_i$ va a ser unidimensional, pero todo lleva a dimensiones superiores.

Si nuestra $X_i$ puede tomar valores en un continuum, a continuación, $f(\cdot)$ puede ser considerado como un parámetro de (uncountably) dimensión infinita. Así, en el sentido de que somos la estimación de un parámetro de dimensión infinita, nuestro problema es un test no paramétrico. Es cierto que el enfoque Bayesiano tiene algunos parámetros flotando aquí y allá. Pero en realidad, se llama no paramétrica debido a que estamos estimando algo de dimensión infinita. El GP de los priores utilizamos asignar masa a cada barrio de cada función continua, por lo que se puede calcular cualquier función continua de forma arbitraria.

Las cosas en la función de covarianza están jugando un papel similar al de los parámetros de suavizado en la habitual frecuencial de los estimadores en la orden para el problema a no ser absolutamente desesperada tenemos que asumir que hay una cierta estructura que esperamos ver $f$ documento. Bayesians lograr esto mediante el uso de un previo en el espacio de funciones continuas en la forma de una Gaussiana proceso. Desde una perspectiva Bayesiana, estamos codificación de las creencias acerca de la $f$ asumiendo $f$ se extrae de un GP con tal y tal covarianza de la función. La previa efectivamente penaliza a las estimaciones de $f$, por ser demasiado complicado.

Editar para computacional de problemas

La mayoría (todos?) de este material se encuentra en el Proceso Gaussiano libro por Rasmussen y Williams.

Computacional de problemas son difíciles para los GPs. Si procedemos niavely necesitaremos $O(N^2)$ tamaño de la memoria sólo para mantener la matriz de covarianza y (resulta) $O(N^3)$ operaciones para invertir. Hay un par de cosas que podemos hacer para hacer las cosas más factible. Una opción es la nota que el chico que realmente necesitamos es $v$, la solución a $(K + \sigma^2 I)v = Y$ donde $K$ es la matriz de covarianza. El método de conjugar los gradientes resuelve esta exactamente en $O(N^3)$ cálculos, pero si nos satisfacemos con una solución aproximada podríamos terminar el algoritmo de gradiente conjugado después de $k$ pasos y hacerlo en $O(kN^2)$ cálculos. También no es necesario para almacenar la totalidad de la matriz $K$ a la vez.

Así que nos hemos movido de $O(N^3)$$O(kN^2)$, pero esto aún escalas cuadráticamente en $N$, por lo que no podría ser feliz. La mejor cosa siguiente es trabajar en su lugar con un subconjunto de los datos, a decir de tamaño $m$ donde invertir y almacenar un $m \times m$ matriz no está tan mal. Por supuesto, no queremos tirar el resto de los datos. El subconjunto de los regresores enfoque de notas que podemos derivar la parte posterior de la media de nuestro médico de cabecera como una regresión de nuestros datos $Y$ $N$ dependiente de los datos de funciones de base se determina por nuestro covarianza de la función; así que tenemos que tirar todos pero $m$ de estas lejos y estamos en la $O(m^2 N)$ cálculos.

Un par de otras posibles opciones que existen. Hemos sido capaces de construir un bajo rango de aproximación a $K$, y establecer $K = QQ^T$ donde $Q$ $n \times q$ y rango $q$; se convierte invirtiendo $K + \sigma^2 I$ en este caso puede hacerse en lugar de invertir $Q^TQ + \sigma^2 I$. Otra opción es elegir la covarianza de la función que se dispersa y el uso de métodos de gradiente conjugado - si la matriz de covarianza es muy escasa, entonces esto puede acelerar los cálculos sustancialmente.

Respondido el 27 de Diciembre, 2012 por Andre Miller (182 Puntos )

Answer 3

11voto

SteveL Puntos 1381

Generalmente hablando, el "no paramétrica" en Bayesiano nonparametrics se refiere a los modelos con un número infinito de (potencial) de los parámetros. Hay un montón de muy buenos tutoriales y conferencias sobre el tema en videolectures.net (como este) que dan buen panorama de esta clase de modelos.

Específicamente, el Proceso Gaussiano (GP) se considera no paramétrica debido a un GP representa una función (es decir, un infinitas dimensiones del vector). Como el número de puntos de datos aumenta ((x, f(x)) pares), por lo que el número de modelo de 'parámetros' (la restricción de la forma de la función). A diferencia de un modelo paramétrico, donde el número de parámetros que permanece fijo con respecto al tamaño de los datos, en los modelos no paramétricos, el número de parámetros que crece con el número de puntos de datos.

Respondido el 27 de Diciembre, 2012 por SteveL (1381 Puntos )

¿Por qué son Gaussiano proceso de los modelos no-paramétricos?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Por qué son Gaussiano proceso de los modelos no-paramétricos?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: