Yo diría que la noción de "derivar" la distribución normal es un poco equívoca. No hay derivación, simplemente es.
Sin embargo, la "derivación" que citas -en la que la gaussiana es una distribución esféricamente simétrica única (hasta una transformación de escala y dentro de lo razonable) en la que los componentes son independientes- fue muy importante históricamente para motivar la gaussiana, tanto en el estudio matemático del error como en la física (la distribución de Maxwell-Boltzmann).
Es cierto que una vez que nos reducimos a una dimensión, la distribución pierde esa motivación. Además, probablemente se trate de mi ignorancia, pero no conozco otra forma de calcular el factor de normalización sin el truco de elevar primero la distribución al cuadrado.
Pero hay otra motivación que funciona para una dimensión y es mucho más importante, y es el teorema central del límite. Se remonta a la misma época que la primera motivación, con el teorema de DeMoivre según el cual la distribución del número de caras en una secuencia de lanzamientos de monedas (es decir, una distribución binomial) se parece cada vez más a una gaussiana a medida que aumenta el número de lanzamientos. Con el tiempo se descubrió que este fenómeno es bastante general. De hecho, la suma de variables aleatorias independientes de cualquier distribución con varianza finita se vuelve aproximadamente normal a medida que aumenta el número de variables ("se vuelve aproximadamente normal" se puede precisar matemáticamente.) El teorema del límite central se puede utilizar para demostrar que muchas cantidades de interés estadístico (estimadores de máxima verosimilitud, por ejemplo) se vuelven aproximadamente normales a medida que aumenta el tamaño de la muestra.
Y tampoco se detiene en una dimensión. Los vectores independientes de distribuciones normales multivariantes también obedecen a un teorema del límite central generalizado. Esto motiva no sólo las distribuciones gaussianas esféricamente simétricas como la derivación a la que haces referencia, sino también las que son asimétricas e incluso tienen correlación entre las variables. Porque la suma de $n$ vectores independientes e idénticamente distribuidos cuyo vector medio y matriz de covarianza existen tienden en su distribución a una normal multivariante.
Como referencia, el libro de texto digamos "animado" de Jaynes tiene un capítulo con muchas otras derivaciones/motivaciones históricas de la gaussiana. ('animado' = No recomendaría este libro en general para aprender, especialmente a un principiante. Es muy idiosincrático y lleno de opiniones, aunque entretenido e interesante).