Consideremos una red neuronal multicapa que aprende sus pesos con retropropagación (y descenso de gradiente). Por lo tanto, hay una probabilidad de que nos encontremos con un mínimo local.
¿Se solucionará el problema añadiendo más unidades neuronales?