Lo que has descrito no es el descenso de gradientes. Es el algoritmo de aprendizaje del Perceptrón. Además, el algoritmo del perceptrón no aprende la línea de separación de margen máximo como es el caso con SVM. Ambos están relacionados pero no son lo mismo. Aquí tienes una explicación visual del algoritmo:
Por qué el algoritmo de aprendizaje de un perceptrón realmente funciona es un poco misterioso. Parece plausible que el hiperplano simplemente pueda saltar para siempre a medida que se actualizan los pesos. Sin embargo, hay una prueba de convergencia ingeniosa para el algoritmo (y si el algoritmo converge, necesariamente hemos encontrado un hiperplano separador).
El truco es monitorear la longitud del vector de pesos a medida que aumenta el número de actualizaciones de pesos. Podemos demostrar que, si los datos son linealmente separables, el algoritmo converge después de un máximo de $\frac{R^2}{\gamma^2}$ actualizaciones donde $R$ es la longitud del vector $x$ más largo y $\gamma$ es la distancia más larga entre un hiperplano separador potencial y el punto $x$ más cercano. La prueba es un poco complicada y larga, así que no la publicaré aquí, pero me gusta el documento Shivaram Kalyanakrishnan sobre esto.
Promo descarada
Tengo un curso gratuito sobre redes neuronales y la primera mitad de mi curso está dedicada a comprender los Perceptrones. La visualización de arriba la saqué de mi curso.