Después de un poco más de lectura en Ted de Matemáticas del Mundo (primera señalado por @hatch22 en su respuesta), me encontré con una muy bonita manera de llevar a cabo este cálculo utilizando el teorema de Pitágoras:
Dado que algunos estiman $y$ de la raíz cuadrada (en el caso que aquí tenemos$\lfloor\sqrt{x}\rfloor$), si dejamos que la hipotenusa de un triángulo $x+y^2$ y uno de sus otros dos lados $x-y^2$, luego el resto de la cara tendrá la longitud de la $2y\sqrt{x}$, es decir, que contendrá la respuesta deseada.
El ángulo de $\alpha$ formado por el lado de los intereses y la hipotenusa puede ser calculado como:
$$\alpha=\sin^{-1}\frac{x-y^2}{x+y^2}\approx\frac{x-y^2}{x+y^2}$$
donde la aproximación es el primer término de la Serie de Maclaurin para $\sin^{-1}$.
El lateral de interés puede ser calculada a partir de:
$$2y\sqrt{x}=(x+y^2)\cos\alpha\approx(x+y^2)\cos\frac{x-y^2}{x+y^2}\approx(x+y^2)\left(1-\frac{1}{2}\left(\frac{x-y^2}{x+y^2}\right)^2\right)$$
Donde la segunda aproximación son los dos primeros términos de la Serie de Maclaurin para $\cos$.
A partir de esto, ahora podemos obtener:
$$\sqrt{x}\approx\frac{x+y^2}{2y}\left(1-\frac{1}{2}\left(\frac{x-y^2}{x+y^2}\right)^2\right)=\frac{x^2+6xy^2+y^4}{4y(x+y^2)}$$
Para obtener la parte fraccionaria de $\sqrt{x}$ en el rango $0..255$, este puede ser optimizado para:
$$y_{\,\text{square}}=y\times y$$
$$s=x+y_{\,\text{square}}$$
$$r=\frac{(s\times s\ll6) + (x\times y_{\,\text{square}}\ll8)}{s\times y}\,\,\&\,\,255$$
donde $\ll$ significa que un bit a bit de desplazamiento a la izquierda (es decir, $\ll6$ $\ll8$ son equivalentes a $\times\,64$ $\times\,256$ respectivamente) y $\&$ significa que un bit a bit (es decir, $\&\,255$ es equivalente a $\%\,256$ donde $\%$ representa el operador de módulo).
La parte sorprendente es que a pesar de los mínimos de la Serie de Maclaurin utilizado, si podemos usar más cerca de $\lfloor\sqrt{x}\rfloor$ $\lceil\sqrt{x}\rceil$ como la estimación de $y$ (tengo ambos disponibles), la respuesta en el rango de $0..255$ es realmente EXACTO!!! para todos los valores de $x\ge1$ que no conducen a un error por desbordamiento durante el cálculo (es decir, $x<134\,223\,232$ para las de 64 bits enteros y $x<2\,071$ 32 bits enteros).
Es posible ampliar el alcance de utilización de la aproximación a $x<2\,147\,441\,941
$ for 64-bit signed integers and $x<41\,324 dólares para la de 32 bits enteros por el cambio de la fórmula:
$$r=\left(\frac{s\ll6}{y} + \frac{x\times y\ll8}{s}\right)\,\&\,\,255$$
Pero debido a la anterior redondeo, esto conduce a una reducción en la precisión de tal forma que el valor es $1$ en muchos casos.
Ahora el problema: Un poco de benchmarking y la lectura indica que en muchos de los procesadores de una operación de división es en realidad no es mucho más rápido que una raíz cuadrada. Por lo menos que se puede encontrar una manera de deshacerse de la división así, este enfoque no es que realmente me va a ayudar mucho. :(
Actualización:
Si una precisión de $\pm 1$ es aceptable, el rango puede ser aumentado de manera significativa con este cálculo:
$$k = \frac{(x + y \times y) \ll 5}{y}$$
$$r = \left(\left(k + \frac{x \ll 12}{k}\right)\ll 1\right)\,\&\,\,255$$
Para 32 bits enteros, esto funciona para cualquier $x<524\,288$, es decir, no se rompe tan pronto como $x \ll 12$ desbordamientos. Así, puede ser utilizado para los círculos hasta el radio 723 píxeles. Nota, que $y$ no cambia en cada paso del algoritmo de Bresenham, por lo $1/y$ puede ser pre-calculado y por lo tanto no agrega un segundo completo de la división para el algoritmo.