En el entrenamiento de redes neuronales profundas y superficiales, ¿por qué se usan comúnmente métodos de gradiente (por ejemplo, descenso de gradiente, Nesterov, Newton-Raphson), a diferencia de otras metaheurísticas?
Por metaheurística me refiero a métodos como el recocido simulado, la optimización de colonias de hormigas, etc., que se desarrollaron para evitar quedarse atascados en un mínimo local.