Voy a escribir el prólogo de esta diciendo que no siempre es claro qué se entiende por "paramétrica" o "semiparamétrico", etc. En los comentarios, parece probable que whuber tiene algunos definición formal en la mente (algo así como la elección de un modelo de $M_\theta$ a partir de algunos de la familia $\{M_\theta: \theta \in \Theta\}$ donde $\Theta$ es infinito-dimensional), pero yo voy a ser bastante informal. Algunos podrían argumentar que un test no paramétrico método es uno donde el número efectivo de parámetros que aumenta el uso de los datos. Creo que hay un vídeo en el que videolectures.net donde (creo) Pedro Orbanz da cuatro o cinco diferentes puntos de vista sobre cómo podemos definir "no paramétricos."
Ya creo que sé qué tipo de cosas que usted tiene en mente, por simplicidad vamos a suponer que usted está hablando sobre el uso de Gauss procesos para la regresión, en una forma típica: tenemos datos de entrenamiento $(Y_i, X_i), i = 1, ..., n$ y estamos interesados en el modelado de la media condicional $E(Y|X = x) := f(x)$. Escribimos
$$
Y_i = f(X_i) + \epsilon_i
$$
y tal vez estamos tan audaz como para suponer que el $\epsilon_i$ son iid y se distribuye normalmente, $\epsilon_i \sim N(0, \sigma^2)$. $X_i$ va a ser unidimensional, pero todo lleva a dimensiones superiores.
Si nuestra $X_i$ puede tomar valores en un continuum, a continuación, $f(\cdot)$ puede ser considerado como un parámetro de (uncountably) dimensión infinita. Así, en el sentido de que somos la estimación de un parámetro de dimensión infinita, nuestro problema es un test no paramétrico. Es cierto que el enfoque Bayesiano tiene algunos parámetros flotando aquí y allá. Pero en realidad, se llama no paramétrica debido a que estamos estimando algo de dimensión infinita. El GP de los priores utilizamos asignar masa a cada barrio de cada función continua, por lo que se puede calcular cualquier función continua de forma arbitraria.
Las cosas en la función de covarianza están jugando un papel similar al de los parámetros de suavizado en la habitual frecuencial de los estimadores en la orden para el problema a no ser absolutamente desesperada tenemos que asumir que hay una cierta estructura que esperamos ver $f$ documento. Bayesians lograr esto mediante el uso de un previo en el espacio de funciones continuas en la forma de una Gaussiana proceso. Desde una perspectiva Bayesiana, estamos codificación de las creencias acerca de la $f$ asumiendo $f$ se extrae de un GP con tal y tal covarianza de la función. La previa efectivamente penaliza a las estimaciones de $f$, por ser demasiado complicado.
Editar para computacional de problemas
La mayoría (todos?) de este material se encuentra en el Proceso Gaussiano libro por Rasmussen y Williams.
Computacional de problemas son difíciles para los GPs. Si procedemos niavely necesitaremos $O(N^2)$ tamaño de la memoria sólo para mantener la matriz de covarianza y (resulta) $O(N^3)$ operaciones para invertir. Hay un par de cosas que podemos hacer para hacer las cosas más factible. Una opción es la nota que el chico que realmente necesitamos es $v$, la solución a $(K + \sigma^2 I)v = Y$ donde $K$ es la matriz de covarianza. El método de conjugar los gradientes resuelve esta exactamente en $O(N^3)$ cálculos, pero si nos satisfacemos con una solución aproximada podríamos terminar el algoritmo de gradiente conjugado después de $k$ pasos y hacerlo en $O(kN^2)$ cálculos. También no es necesario para almacenar la totalidad de la matriz $K$ a la vez.
Así que nos hemos movido de $O(N^3)$$O(kN^2)$, pero esto aún escalas cuadráticamente en $N$, por lo que no podría ser feliz. La mejor cosa siguiente es trabajar en su lugar con un subconjunto de los datos, a decir de tamaño $m$ donde invertir y almacenar un $m \times m$ matriz no está tan mal. Por supuesto, no queremos tirar el resto de los datos. El subconjunto de los regresores enfoque de notas que podemos derivar la parte posterior de la media de nuestro médico de cabecera como una regresión de nuestros datos $Y$ $N$ dependiente de los datos de funciones de base se determina por nuestro covarianza de la función; así que tenemos que tirar todos pero $m$ de estas lejos y estamos en la $O(m^2 N)$ cálculos.
Un par de otras posibles opciones que existen. Hemos sido capaces de construir un bajo rango de aproximación a $K$, y establecer $K = QQ^T$ donde $Q$ $n \times q$ y rango $q$; se convierte invirtiendo $K + \sigma^2 I$ en este caso puede hacerse en lugar de invertir $Q^TQ + \sigma^2 I$. Otra opción es elegir la covarianza de la función que se dispersa y el uso de métodos de gradiente conjugado - si la matriz de covarianza es muy escasa, entonces esto puede acelerar los cálculos sustancialmente.