Esencialmente, mi pregunta es que en los perceptrones multicapa, los perceptrones se utilizan con una función de activación sigmoide. De modo que en la regla de actualización $\hat{y}$ se calcula como
$$\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}$$
¿En qué se diferencia entonces este perceptrón "sigmoide" de una regresión logística?
Yo diría que un perceptrón sigmoide de una sola capa es equivalente a una regresión logística en el sentido de que ambos utilizan $\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}$ en la regla de actualización. Además, ambos devuelven $\operatorname{sign}(\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)})$ en la predicción. Sin embargo, en los perceptrones multicapa, la función de activación sigmoidea se utiliza para devolver una probabilidad, no una señal de encendido y apagado, en contraste con la regresión logística y un perceptrón monocapa.
Creo que el uso del término "perceptrón" puede ser un poco ambiguo, así que permítanme proporcionar algunos antecedentes basados en mi comprensión actual sobre los perceptrones de una sola capa:
Regla perceptrón clásica
En primer lugar, el perceptrón clásico de F. Rosenblatt, en el que tenemos una función escalón:
$$\Delta w_d = \eta(y_{i} - \hat{y_i})x_{id} \quad\quad y_{i}, \hat{y_i} \in \{-1,1\}$$
para actualizar los pesos
$$w_k := w_k + \Delta w_k \quad \quad (k \in \{1, ..., d\})$$
De modo que $\hat{y}$ se calcula como
$$\hat{y} = \operatorname{sign}(\mathbf{w}^T\mathbf{x}_i) = \operatorname{sign}(w_0 + w_1x_{i1} + ... + w_dx_{id})$$
Descenso gradual
Mediante el descenso gradiente, optimizamos (minimizamos) la función de coste
$$J(\mathbf{w}) = \sum_{i} \frac{1}{2}(y_i - \hat{y_i})^2 \quad \quad y_i,\hat{y_i} \in \mathbb{R}$$
donde tenemos números "reales", así que veo esto básicamente análogo a la regresión lineal con la diferencia de que nuestra salida de clasificación es umbralizada.
Aquí, damos un paso en la dirección negativa del gradiente cuando actualizamos los pesos
$$\Delta w_k = - \eta \frac{\partial J}{\partial w_k} = - \eta \sum_i (y_i - \hat{y_i})(- x_{ik}) = \eta \sum_i (y_i - \hat{y_i})x_{ik}$$
Pero aquí, tenemos $\hat{y} = \mathbf{w}^T\mathbf{x}_i$ en lugar de $\hat{y} = \operatorname{sign}(\mathbf{w}^T\mathbf{x}_i)$
$$w_k := w_k + \Delta w_k \quad \quad (k \in \{1, ..., d\})$$
Además, calculamos la suma de errores al cuadrado para una pasada completa por todo el conjunto de datos de entrenamiento (en el modo de aprendizaje por lotes), en contraste con la regla clásica del perceptrón que actualiza los pesos a medida que llegan nuevas muestras de entrenamiento (análogo al descenso de gradiente estocástico -- aprendizaje en línea).
Función de activación sigmoidea
Esta es mi pregunta:
En los perceptrones multicapa, se utilizan perceptrones con una función de activación sigmoidea. De modo que en la regla de actualización $\hat{y}$ se calcula como
$$\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}$$
¿En qué se diferencia entonces este perceptrón "sigmoide" de una regresión logística?