Haciendo eco y ampliando el comentario de Porfirio, la idea de tener un gran número de partículas aparece en la KMT porque ésta es una teoría estadística. Es decir, todo lo que predice la KMT es alguna propiedad media o, para ser rigurosos, el valor de la expectativa de una distribución.
Por lo tanto, si sólo se tuviera un número muy pequeño de partículas, nunca se llegaría a algo como el Distribución de Maxwell-Boltzmann porque habría que tratar cada partícula individualmente en lugar de promediar en un espacio de fase.
Así que, para responder a su pregunta real, necesitamos esta suposición porque nos justifica en hacer cosas como la derivación en este enlace donde se toma la derivada de la función desconocida (ecuación 9.8). Eso supone que esta función es continua en todo el espacio porque no se ponen restricciones a la función resultante. La única forma en que podemos hacer eso y esperar que nuestra teoría coincida con la realidad es si la realidad tiene una distribución aproximadamente continua de las velocidades de las partículas, es decir, muchas partículas presentes.
Así es, $10^{23}$ partículas realmente no es tanto en la práctica, por lo que cuando se baja a presiones y temperaturas muy bajas (que es la densidad numérica $\frac{N}{V}$ es pequeño) la teoría sigue funcionando porque algo como $10^6$ probablemente sigue siendo una función bastante continua.
Como un aparte totalmente no relacionado, también podría preguntarse si la distribución de MB es incorrecta porque permite que las partículas tengan velocidades que van desde $0\rightarrow \infty > c$ ... He calculado la corrección especial relativista una vez y es tan ridículamente pequeña que realmente te molesta que te hayas tomado la molestia de hacerlo.
Sé que esta respuesta se ha centrado sobre todo en la distribución de MB, pero eso es muy importante para la KMT, así que pensé que sería una respuesta representativa, aunque no exhaustiva.
EDITAR:
Sin embargo, para ser crítico con mi respuesta, estoy casi seguro de que gran parte de la KMT es derivable pensando sólo en una partícula que muestrea todo su espacio de fases (quizás todo a la vez) y una vez podría argumentar simplemente que la función anterior de la que menciono tomar la derivada es una distribución hipotética en la que cada uno de los infinitos estados no tiene por qué estar ocupado en un momento dado. Así que, básicamente, si se toma una media temporal del espacio de fases a lo largo de un tiempo infinito, se obtiene esta distribución continua. Esa idea también se alinea bien con las ideas que tienen que ver con la función de partición en la que cada estado podría ser igualmente probable, pero obtenemos una distribución no uniforme porque algunos estados tienen más probabilidades de ser muestreados.
Entonces, quizá sea más instructivo físicamente pensar en un gran número de partículas.