Usted menciona la regresión lineal. Esto está relacionado con regresión logística que tiene un algoritmo de optimización rápido similar. Si tiene límites en los valores objetivo, como en un problema de clasificación, puede ver la regresión logística como una generalización de la regresión lineal.
Las redes neuronales son estrictamente más generales que la regresión logística sobre las entradas originales, ya que ésta corresponde a una red de capas saltadas (con conexiones que conectan directamente las entradas con las salidas) con $0$ nodos ocultos.
Cuando se añaden características como $x^3$ Esto es similar a la elección de los pesos de unos pocos nodos ocultos en una sola capa oculta. No hay exactamente una $1-1$ ya que para modelar una función como $x^3$ con sigmoides puede tomar más de una neurona oculta. Cuando se entrena una red neuronal, se deja que encuentre sus propios pesos ocultos de entrada, lo que tiene el potencial de ser mejor. También puede llevar más tiempo y puede ser inconsistente. Puede empezar con una aproximación a la regresión logística con características adicionales, y entrenar los pesos de entrada-ocultos lentamente, y esto debería hacerlo mejor que la regresión logística con características adicionales eventualmente. Dependiendo del problema, el tiempo de entrenamiento puede ser insignificante o prohibitivo.
Una estrategia intermedia consiste en elegir un gran número de nodos al azar, de forma similar a lo que ocurre cuando se inicializa una red neuronal, y fijar los pesos de entrada a los ocultos. La optimización sobre los pesos *-a-salida sigue siendo lineal. Esto se denomina máquina de aprendizaje extremo . Funciona al menos tan bien como la regresión logística original.