15 votos

La comprensión de Gauss función de Base de los parámetros a ser utilizados en la regresión lineal

Me gustaría aplicar la Gaussiana de la función de base en una regresión lineal de la aplicación. Lamentablemente estoy teniendo un tiempo difícil la comprensión de un par de parámetros en la función de base. Específicamente mu y sigma.

Mi conjunto de datos es una de 10.000 x 31 matriz. 10.000 muestras y el 31 de características. He leído que "Cada base de la función convierte el vector de entrada x en un valor escalar". Así que yo supongo que x es 1 ejemplo de modo de 1 x 31 vector. A partir de aquí, estoy confundido. ¿Qué es exactamente el Mu subíndice j parámetro? He leído que este rige las ubicaciones de las funciones de base. Así que no es éste el medio de algo? Yo también soy arrojado por el subíndice j (mu y phi), esto me hace pensar jth fila. Pero eso no parece tener sentido. Es la mu j un vector? Ahora a por el sigma que "gobierna la escala espacial". ¿Qué es exactamente? He visto algunas de las implementaciones que se trate de valores tales como .1, .5, 2.5 para este parámetro. Cómo son estos valores calculados? He estado investigando y buscando ejemplos para el aprendizaje, pero como aún no he sido capaz de encontrar ninguna. Cualquier ayuda o dirección es muy apreciado! Gracias.

13voto

martino Puntos 1179

Como usted está confundido permítanme empezar diciendo que el problema y tomar sus preguntas una por una. Tiene un tamaño de muestra de 10.000 y cada una de las muestras se describe por una función vectorial $x\in\mathbb{R}^{31}$. Si desea realizar la regresión usando Gauss funciones de base radial, a continuación, se busca una función de la forma $$f(x) = \sum_{j}{w_j * g_j(x; \mu_j,\sigma_j}), j=1..m$$ where the $g_i$ are your basis functions. Specifically, you need to find the $m$ weights $w_j$ so that for given parameters $\mu_j$ and $\sigma_j$ you minimise the error between $s$ and the corresponding prediction $\hat{y}$ = $f(\hat{x})$ - normalmente, usted podrá minimizar el menor de los cuadrados de error.

¿Qué es exactamente el Mu subíndice j parámetro?

Usted necesita encontrar a $m$ funciones de base $g_j$. (Usted todavía necesita para determinar el número de $m$) de Cada función de base tendrá una $\mu_j$ $\sigma_j$ (desconocida). El subíndice $j$ rangos de$1$$m$.

Es el $\mu_j$ un vector?

Sí, es un punto en $\mathbb{R}^{31}$. En otras palabras, es el punto en algún lugar en el espacio de características y un $\mu$ deben ser determinados para cada una de las $m$ funciones de base.

He leído que este rige las ubicaciones de las funciones de base. Así que no es éste el medio de algo?

El $j^{th}$ función de base se centra en $\mu_j$. Usted tendrá que decidir en donde estas localidades. Así que no, no es necesariamente el medio de la nada (pero véase más abajo para las formas de determinar)

Ahora a por el sigma que "gobierna la escala espacial". ¿Qué es exactamente?

$\sigma$ es más fácil de entender si nos dirigimos a la base de las funciones de sí mismos.

Ayuda a pensar en el Gaussiano funciones de base radial en el bajo dimensons, decir $\mathbb{R}^{1}$ o $\mathbb{R}^{2}$. En $\mathbb{R}^{1}$ Gaussiano función de base radial es sólo la conocida curva de campana. La campana puede ser estrecho o amplio. El ancho está determinado por $\sigma$ – el mayor $\sigma$es la más estrecha de la forma de campana. En otras palabras, $\sigma$ ajusta el ancho de la forma de campana. Así, por $\sigma$ = 1 tenemos ningún escalado. Para un gran $\sigma$ tenemos una sustancial ampliación.

Usted puede preguntar cuál es el propósito de esto es. Si usted piensa de la campana que cubre una porción de espacio (una línea en $\mathbb{R}^{1}$) – una estrecha campana sólo cubren una pequeña parte de la línea*. Puntos de $x$ cerca del centro de la campana tendrá un mayor $g_j(x)$ del valor. Puntos lejos del centro tienen un menor $g_j(x)$ del valor. Escala tiene el efecto de empujar a los puntos más alejados del centro – como la campana estrecha de los puntos se encuentra más lejos del centro - se reduce el valor de $g_j(x)$

Cada base de la función convierte el vector de entrada x en un valor escalar

Sí, se están evaluando las funciones de base en algún punto de $\mathbf{x}\in\mathbb{R}^{31}$.

$$\exp\left({-\frac{\|\mathbf{x}-\mu_j\|_2^2}{2*\sigma_j^2}}\right)$$

Usted obtener un escalar como un resultado. El resultado escalar que depende de la distancia del punto de $\mathbf{x}$ desde el centro de la $\mu_j$ $\|\mathbf{x}-\mu_j\|$ y el escalar $\sigma_j$.

He visto algunas de las implementaciones que se trate de valores tales como .1, .5, 2.5 para este parámetro. Cómo son estos valores calculados?

Esto, por supuesto, es uno de los interesantes y difíciles aspectos de uso de Gauss funciones de base radial. si usted busca en la web encontrarás muchas sugerencias en cuanto a cómo estos parámetros se determinan. Voy a describir en términos muy simples, una posibilidad basada en la agrupación. Usted puede encontrar esta y muchas otras sugerencias en línea.

Empezar por la agrupación de su 10000 muestras (podría primer uso de la PCA para reducir las dimensiones seguido por k-means clustering). Usted puede dejar a $m$ el número de clusters a encontrar (normalmente el empleo de validación cruzada para determinar el mejor $m$). Ahora, crear una función de base radial $g_j$ para cada clúster. Para cada función de base radial deje $\mu_j$ ser el centro (por ejemplo, media, centro de gravedad, etc) del clúster. Deje $\sigma_j$ reflejan el ancho del clúster (por ejemplo, radio...) Ahora seguir adelante y realizar su regresión (esta simple descripción es sólo una visión general - se necesita un montón de trabajo en cada paso!)

*Por supuesto, la curva en forma de campana se define a partir de -$\infty$$\infty$, por lo que tendrá un valor en todas partes en la línea. Sin embargo, los valores muy lejos del centro son insignificantes

2voto

mathgirl Puntos 31

Permítanme tratar de dar una explicación sencilla. En esta notación $j$ puede ser el número de fila, pero puede ser también la característica de número. Si escribimos $y=\beta_0+\sum_{j=1:31}{\beta_j\phi_j(x)}$ $j$ denota la característica de número, $y$ es de columna vector, $\beta_j$ es escalar y $\phi_j(x)$ es una columna de vectores. Si escribimos $y_j=\beta\phi_j(x)$ $j$ indica el número de fila, $y_j$ es escalar, $\beta$ es de columna de vectores y $\phi_j(x)$ es una fila-vector. La notación de donde $i$ indica la fila y $j$ denota la columna es más común, así que vamos a utilizar la primera variante.

La introducción de Gauss función de base en la regresión lineal, $y_i$ (escalares) ahora no depende de los valores numéricos de las características de $x_i$ (vector), pero en las distancias entre el $x_i$ y el centro de todos los otros puntos de $\mu_i$. De tal manera que $y_i$ no depende de si $j$-ésima característica de valor de $i$-ésima observación es alto o pequeño, pero depende de si $j$-ésima característica de valor está cerca o lejos de la media para ese $j$-función de $\mu_{ij}$. Por lo $\mu_j$ no es un parámetro, ya que no puede ser ajustado. Es sólo una propiedad de un conjunto de datos. El parámetro $\sigma^2$ es un valor escalar, controla la suavidad y puede ser sintonizada. Si es pequeño, los pequeños cambios en la distancia tendrá gran efecto (recuerde empinada de gauss: todos los puntos situados ya en la pequeña distancia de centro de diminutas $y$ valores). Si es grande, los pequeños cambios en la distancia tendrá de baja efecto (recuerde plano de gauss: la disminución de $y$ con el aumento de la distancia desde el centro es lento). El valor óptimo de $\sigma^2$ debe ser buscado (normalmente se encuentra con validación cruzada).

0voto

Sahadeo Padhye Puntos 41

El Gaussiano funciones de base en el multivariante configuración multivariante de los centros. Suponiendo que su $x\in\mathbb{R}^{31}$,$\mu_j\in\mathbb{R}^{31}$. La Gaussiana tiene que ser multivariante, es decir, $e^{(x-\mu_j)'\Sigma_j^{-1}(x-\mu_j)}$ donde $\Sigma_j\in\mathbb{R}^{31\times 31}$ es una matriz de covarianza. El índice de $j$ no es un componente de un vector, es sólo el $j$th vector. Del mismo modo, $\Sigma_j$ $j$th de la matriz.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X