Cuando se utiliza logística funciones de activación, es cierto que la función de relación las entradas de cada unidad para su salida es el mismo que para la regresión logística. Pero, este no es realmente el mismo ya que cada unidad realizar la regresión logística. La diferencia es que, en la regresión logística, los pesos y bias se eligen de modo que el resultado coincida mejor con el objetivo de valores (utilizando el registro/de la cruz-la pérdida de entropía). En contraste, las unidades ocultas en una red neuronal enviar sus salidas de aguas abajo de unidades. No hay ningún destino de salida para que coincida individuales unidades ocultos. Más bien, los pesos y sesgos son las elegidas para minimizar la función objetivo que depende de la salida final de la red.
En lugar de realizar la regresión logística, podría tener más sentido pensar en cada oculto unidad de informática de una coordenada en algún espacio de características. Desde esta perspectiva, el propósito de una capa oculta es transformar su entrada--el vector de entrada se asigna a un vector de la capa oculta de activaciones. Usted puede pensar en esto como la asignación de la entrada en un espacio de características con una dimensión correspondiente a cada oculto de la unidad.
La capa de salida, a menudo puede ser considerado como un estándar algoritmo de aprendizaje que opera en este espacio de características. Por ejemplo, en una tarea de clasificación, mediante una logística de salida de la unidad con el cruce de la pérdida de entropía es equivalente a realizar la regresión logística en función del espacio (o la regresión logística multinomial si el uso de softmax salidas). En una regresión de la tarea, el uso de una salida lineal con error cuadrado es equivalente a la realización de los mínimos cuadrados de la regresión lineal en el espacio de características.
El entrenamiento de la red equivale a aprender la función de espacio de mapeo y clasificación/función de regresión (en función del espacio) que, juntos, dar el mejor rendimiento. Suponiendo que no lineales de unidades ocultas, aumentando el ancho de la capa oculta o apilar múltiples capas ocultas permite más complejo espacio de características de las asignaciones, lo que permite a más compleja de las funciones de ajuste.