Sé que este hilo es bastante antiguo y que otros han hecho un gran trabajo para explicar conceptos como mínimos locales, sobreajuste, etc. Sin embargo, como el OP buscaba una solución alternativa, intentaré aportar una y espero que inspire más ideas interesantes.
La idea es sustituir cada peso w por w + t, donde t es un número aleatorio que sigue una distribución gaussiana. La salida final de la red es entonces la salida media sobre todos los valores posibles de t. Esto se puede hacer analíticamente. A continuación, se puede optimizar el problema con el descenso de gradiente o LMA u otros métodos de optimización. Una vez realizada la optimización, tiene dos opciones. Una opción es reducir el sigma en la distribución gaussiana y hacer la optimización una y otra vez hasta que sigma llegue a 0, entonces tendrá un mejor mínimo local (pero potencialmente podría causar un sobreajuste). Otra opción es seguir usando la que tiene el número aleatorio en sus pesos, suele tener mejor propiedad de generalización.
El primer enfoque es un truco de optimización (lo llamo túnel convolucional, ya que utiliza la convolución sobre los parámetros para cambiar la función objetivo), que suaviza la superficie del paisaje de la función de coste y se deshace de algunos de los mínimos locales, por lo que es más fácil encontrar el mínimo global (o mejor el mínimo local).
El segundo enfoque está relacionado con la inyección de ruido (en los pesos). Obsérvese que esto se hace de forma analítica, lo que significa que el resultado final es una sola red, en lugar de múltiples redes.
Los siguientes son ejemplos de salidas para el problema de dos espirales. La arquitectura de la red es la misma para los tres: sólo hay una capa oculta de 30 nodos y la capa de salida es lineal. El algoritmo de optimización utilizado es LMA. La imagen de la izquierda corresponde a la configuración de vainilla; la del medio utiliza el primer enfoque (es decir, la reducción repetida de sigma hacia 0); la tercera utiliza sigma = 2.
Puedes ver que la solución vainilla es la peor, la tunelización convolucional hace un mejor trabajo, y la inyección de ruido (con tunelización convolucional) es la mejor (en términos de propiedad de generalización).
Tanto el túnel convolucional como el modo analítico de inyección de ruido son ideas originales mías. Quizás sean la alternativa que a alguien le pueda interesar. Los detalles se pueden encontrar en mi documento Combinar un número infinito de redes neuronales en una sola . Advertencia: No soy un escritor académico profesional y el documento no está revisado por pares. Si tienes preguntas sobre los enfoques que he mencionado, por favor deja un comentario.