Actualmente estoy intentando comprender lo siguiente:
La regresión logística es un clasificador probabilístico lineal. Se parametriza mediante una matriz de pesos $W$ y un vector de sesgo $b$ . La clasificación se realiza proyectando puntos de datos en un conjunto de hiperplanos, cuya distancia refleja una probabilidad de pertenencia a una clase.
Matemáticamente, esto se puede escribir como:
\begin{align} P(Y=i|x, W,b) &= softmax_i(W x + b) \\ &= \frac {e^{W_i x + b_i}} {\sum_j e^{W_j x + b_j}} \end{align}
Fuente: http://www.deeplearning.net/tutorial/logreg.html#logreg
Lo que creo haber entendido
Tenemos el siguiente escenario:
- Cuando tenga $p$ puntos en $\mathbb{R}^n$ de la que conoce la clase $c(p_i) \in [1 ... m]$ (para $i \in 1..p$ ) de. Este es nuestro conjunto de entrenamiento.
- Tenemos otros puntos que queremos clasificar.
- Siempre hacemos un control cada vez. Para un punto determinado $p$ comprobamos "¿Cuál es la probabilidad de $p$ ser un punto de clase $i$ ?" y nuestra clasificación será el máximo de eso. Así que podemos reducir el problema de clasificar un punto en $\mathbb{R}^n$ en $m$ clases a una clase.
- Para la clasificación en una clase de un punto en $\mathbb{R}^2$ utilizamos una función sigmoidea $S_a(t) = \frac{1}{1+e^{-at}}$ donde $a$ es un parámetro que hay que aprender. Esto significa que elegimos $a$ de forma que se minimice el error para el conjunto de entrenamiento. El error es probablemente la suma de todas las distancias entre los puntos del conjunto de entrenamiento a la función $S_a$ .
- Softmax es similar a las funciones sigmoides
Mis preguntas
- ¿Es correcto lo que he escrito más arriba?
- En la fórmula citada:
- Es $i$ la clase queremos obtener la probabilidad de que $x$ (el punto que queremos clasificar) podría pertenecer?
- ¿Cómo calculamos $W$ y $b$ ?
- El mapa de funciones sigmoideas $\mathbb{R} \rightarrow \mathbb{R}$ . ¿De qué espacio a qué espacio mapea softmax?
- En este vídeo de Andrew Ng utiliza $g(\theta^T x) = g(z) = \frac{1}{1+e^{-z}}$ donde $\theta$ hay que aprender. ¿Es equivalente al planteamiento de la función Softmax? ¿Cuál es la ventaja de Softmax? (El enfoque de Andrew Ng parece mucho más sencillo).