Como usted está confundido permítanme empezar diciendo que el problema y tomar sus preguntas una por una. Tiene un tamaño de muestra de 10.000 y cada una de las muestras se describe por una función vectorial $x\in\mathbb{R}^{31}$. Si desea realizar la regresión usando Gauss funciones de base radial, a continuación, se busca una función de la forma $$f(x) = \sum_{j}{w_j * g_j(x; \mu_j,\sigma_j}), j=1..m$$ where the $g_i$ are your basis functions. Specifically, you need to find the $m$ weights $w_j$ so that for given parameters $\mu_j$ and $\sigma_j$ you minimise the error between $s$ and the corresponding prediction $\hat{y}$ = $f(\hat{x})$ - normalmente, usted podrá minimizar el menor de los cuadrados de error.
¿Qué es exactamente el Mu subíndice j parámetro?
Usted necesita encontrar a $m$ funciones de base $g_j$. (Usted todavía necesita para determinar el número de $m$) de Cada función de base tendrá una $\mu_j$ $\sigma_j$ (desconocida). El subíndice $j$ rangos de$1$$m$.
Es el $\mu_j$ un vector?
Sí, es un punto en $\mathbb{R}^{31}$. En otras palabras, es el punto en algún lugar en el espacio de características y un $\mu$ deben ser determinados para cada una de las $m$ funciones de base.
He leído que este rige las ubicaciones de las funciones de base. Así que no es éste el medio de algo?
El $j^{th}$ función de base se centra en $\mu_j$. Usted tendrá que decidir en donde estas localidades. Así que no, no es necesariamente el medio de la nada (pero véase más abajo para las formas de determinar)
Ahora a por el sigma que "gobierna la escala espacial". ¿Qué es exactamente?
$\sigma$ es más fácil de entender si nos dirigimos a la base de las funciones de sí mismos.
Ayuda a pensar en el Gaussiano funciones de base radial en el bajo dimensons, decir $\mathbb{R}^{1}$ o $\mathbb{R}^{2}$. En $\mathbb{R}^{1}$ Gaussiano función de base radial es sólo la conocida curva de campana. La campana puede ser estrecho o amplio. El ancho está determinado por $\sigma$ – el mayor $\sigma$es la más estrecha de la forma de campana. En otras palabras, $\sigma$ ajusta el ancho de la forma de campana. Así, por $\sigma$ = 1 tenemos ningún escalado. Para un gran $\sigma$ tenemos una sustancial ampliación.
Usted puede preguntar cuál es el propósito de esto es. Si usted piensa de la campana que cubre una porción de espacio (una línea en $\mathbb{R}^{1}$) – una estrecha campana sólo cubren una pequeña parte de la línea*. Puntos de $x$ cerca del centro de la campana tendrá un mayor $g_j(x)$ del valor. Puntos lejos del centro tienen un menor $g_j(x)$ del valor. Escala tiene el efecto de empujar a los puntos más alejados del centro – como la campana estrecha de los puntos se encuentra más lejos del centro - se reduce el valor de $g_j(x)$
Cada base de la función convierte el vector de entrada x en un valor escalar
Sí, se están evaluando las funciones de base en algún punto de $\mathbf{x}\in\mathbb{R}^{31}$.
$$\exp\left({-\frac{\|\mathbf{x}-\mu_j\|_2^2}{2*\sigma_j^2}}\right)$$
Usted obtener un escalar como un resultado. El resultado escalar que depende de la distancia del punto de $\mathbf{x}$ desde el centro de la $\mu_j$ $\|\mathbf{x}-\mu_j\|$ y el escalar $\sigma_j$.
He visto algunas de las implementaciones que se trate de valores tales como .1, .5, 2.5 para este parámetro. Cómo son estos valores calculados?
Esto, por supuesto, es uno de los interesantes y difíciles aspectos de uso de Gauss funciones de base radial. si usted busca en la web encontrarás muchas sugerencias en cuanto a cómo estos parámetros se determinan. Voy a describir en términos muy simples, una posibilidad basada en la agrupación. Usted puede encontrar esta y muchas otras sugerencias en línea.
Empezar por la agrupación de su 10000 muestras (podría primer uso de la PCA para reducir las dimensiones seguido por k-means clustering). Usted puede dejar a $m$ el número de clusters a encontrar (normalmente el empleo de validación cruzada para determinar el mejor $m$). Ahora, crear una función de base radial $g_j$ para cada clúster. Para cada función de base radial deje $\mu_j$ ser el centro (por ejemplo, media, centro de gravedad, etc) del clúster. Deje $\sigma_j$ reflejan el ancho del clúster (por ejemplo, radio...) Ahora seguir adelante y realizar su regresión (esta simple descripción es sólo una visión general - se necesita un montón de trabajo en cada paso!)
*Por supuesto, la curva en forma de campana se define a partir de -$\infty$$\infty$, por lo que tendrá un valor en todas partes en la línea. Sin embargo, los valores muy lejos del centro son insignificantes