Usted está confundido por la diferencia entre la notación y lo que la notación representa.
Las manchas de tinta (o píxeles o lo que sea) que conforman "$\{1,1,1,\ldots,2,2,2,\ldots, 3,3,3, \ldots\}$" no son lo que el conjunto es -- que no son más que parte de una descripción de un conjunto, y el conjunto en sí "no sabe" cómo hemos elegido para describirlo.
¿Qué es un conjunto, entonces?
Más fundamentalmente, un conjunto es algo que nos puede preguntar, "es tal-y-tal uno de sus elementos?" para cada uno de estos y lo que podemos pensar, y obtener un "sí" o "no" como respuesta. Nada más, nada menos.
El axioma de extensionality afirma que si estamos viendo dos cosas y ellos están de acuerdo acerca de lo que sus elementos son -- es que si vamos a pedir a cada uno de ellos "es tal-y-tal uno de sus elementos?" acerca de la misma tal y tal, entonces se dan las mismas respuestas, entonces ellos realmente son el mismo conjunto. Tal vez podríamos imaginar que el conjunto tiene dos números de teléfono diferentes nos puede llamar para preguntar cuáles son sus elementos son, pero desconocida para nosotros ambos números conducen al mismo centro de llamadas. Pero (por lo que dice el axioma) todos los demás conjuntos saben esto, y que se nos dé la misma respuesta para$\{555,1,2,3,4\}$$\{555,4,3,2,1\}$.
La notación $\{1,2,3\}$ representa
un conjunto de respuestas "sí" a "es $x$ uno de sus elementos?" si $x=1$ o $x=2$ o $x=3$, y "no" en caso contrario.
La notación $\{1,1,\ldots,2,2,\ldots,3,3,\ldots\}$ es informal pero sería algo como
un conjunto de respuestas "sí" a "es $x$ uno de sus elementos?" si $x=1$ o $x=1$ o $x=1$ o ... o $x=2$ o $x=2$ o $x=2$ ... o $x=3$ o $x=3$ o $x=3$ ..., y "no" en caso contrario.
Para cada posible $x$, estas dos descripciones tanto de la demanda como la misma respuesta, por lo que describen el mismo conjunto.