Lo que dices es una buena idea, pero no es del todo correcta, ya que tenemos que maximizar la distribución sujeta a dos restricciones. Voy a reiterar la derivación siguiente junto con McQuarrie de la Mecánica Estadística.
Las restricciones en el Conjunto:
Las limitaciones que menciono son en realidad las propiedades que determinan el conjunto estamos trabajando con:
$$
\sum_ja_j=Un
$$
$$
\sum_j\epsilon_ja_j=E
$$
La primera restricción que dice que la suma de todos los estados de la cantidad de población de cada estado $j$, dado por $a_j$, debe ser igual al número total de miembros en el sistema de $A$. Este es el número de moléculas si te gusta.
La segunda restricción dice que la energía de cada estado, $\epsilon_j$, multiplicado por la población de ese estado, $a_j$, debe ser igual a la energía total, $E$, del sistema cuando la suma se toma sobre todos los $j$. Estas limitaciones son tan intuitivas físicamente, que es fácil olvidar que incluso tienen que ser cumplidas.
Por el camino, en realidad no estamos restringiendo la energía total. Sólo nos limitan, que cualquiera que sea la energía, se puede encontrar a partir de la segunda restricción. De hecho, en McQuarrie, esta derivación se efectúa la canónica (NVT) ensemble.
Método de las Más Probables de Distribución:
Ahora, como usted dice, la distribución que principalmente hemos de observar será la que maximiza el número de maneras de organizar a los miembros de la agrupación. Aviso digo principalmente a observar. Esto se discute a continuación. Este número de maneras en que se da por la ecuación de anotar,
$$
W(\mathbf{a})=\frac {!}{\prod_ka_k!}
$$
Hay muchas posibles distribuciones que cumplen las restricciones que hemos dado. Dada esta indeterminado (pero probablemente infinito) número de conjuntos que satisfacen nuestras limitaciones, la probabilidad de ser encontrado en estado de $j$ está dada por,
$$
P_j=\frac{\bar{a}_j}{A}=\frac{1}{A}\frac{\sum_{\mathbf{a}}a_j(\mathbf{a})W(\mathbf{a})}{\sum_{\mathbf{a}}W(\mathbf{a})}
$$
Observe que ahora estamos sumando sobre el vector de todos los estados cuánticos para cada conjunto, $\mathbf{a}$, porque queremos encontrar a $\bar{a}_j$, la media de la población del estado cuántico $j$ en cada uno de los diferentes conjunto de la satisfacción de nuestras limitaciones.
Evidentemente, esto no es muy útil para nosotros porque hay tantas posibles conjuntos nunca seremos capaces de hacer algo con ellos. Sin embargo, podemos tomar ventaja de la forma de $W(\mathbf{a})$. Es decir, por jugar con los números, usted encontrará que la multinomial coeficientes son muy alcanzó su máximo cuando todos los de la $a_j$'s son grandes. Afortunadamente, este es exactamente el régimen en que vivimos porque estamos pensando acerca de algo en el orden de $10^{23}$ de las partículas, de modo que la población de los estados va a ser muy grande.
Esto significa que podemos hacer una aproximación, que es formalmente exacta en el límite de $A\rightarrow\infty$, $\bar{a}_j/A=a_j^*/A$ donde $a_j^*$ $a_j$ en la distribución, lo que maximiza $W(\mathbf{a})$. Así, el hecho de que vamos a maximizar esta distribución viene a través de una aproximación, aunque sea uno que se convierte en exacta en el límite cerca de donde estamos trabajando.
Así, podemos simplificar la ecuación para la probabilidad,
$$
P_j=\frac{1}{A}\frac{a_j^*W(\mathbf{a^*})}{W(\mathbf{a^*})}=\frac{a^*_j}{A}
$$
Método de Lagrange se Multiplica:
Queremos encontrar a $a_j^*$, lo que significa que debe realizar una maximización sujeta a las dos limitaciones hemos enumerado al principio. La maximización de algo sujeto a restricciones no parece ser fácil, pero no es un muy buen método para hacerlo es llamado el método de multiplicadores de Lagrange. Esencialmente, presentamos algunos de los coeficientes indeterminados para la maximización de la ecuación, de modo que las limitaciones están incluidas, pero en realidad sólo estamos añadiendo cero a la ecuación.
Lo que quiero decir con esto es que puedo volver a escribir las restricciones de la siguiente manera:
$$
\alpha\left(\sum_ja_j-\right)=0
$$
$$
\beta\left(\sum_j\epsilon_ja_j-E\ \ derecho)=0
$$
donde $\alpha$ $\beta$ son los llamados multiplicadores de Lagrange. Luego, simplemente podemos maximizar nuestra distribución normal:
$$
\frac{\partial}{\partial a_k}\left(\ln W(\mathbf{a^*})-\alpha\left(\sum_ja_j-\right)-\beta\left(\sum_j\epsilon_ja_j-E\ \ derecho)\right)=0
$$
Realmente no es obvio que esto debe maximizar el sistema, mientras que la satisfacción de las restricciones, por lo que tendrá que leer en otra parte por qué esto funciona, pero el hecho es que se hace el trabajo.
Aviso, en realidad he jugado un truco. En lugar de maximizar $W(\mathbf{a^*})$, estoy maximizar $\ln W(\mathbf{a^*})$. Esto es debido a que $W(\mathbf{a^*})$ ha factoriales, de modo que al tomar el logaritmo podemos emplear la aproximación de Stirling. Esto también es más o menos exacto en el límite de un gran número de partículas, que siempre nos satisface. La razón por la que podemos hacer esto es porque el logaritmo de una función tiene un máximo en la misma coordenada como la propia función y el logaritmo es suave para que de alguna manera no crear otro máximo o algo que rompería el truco.
Después de tomar la derivada, perdemos la constante y cada término de la suma, donde $k\ne j$. Así, tenemos,
$$
-\ln a_j^*-\alpha-1-\beta E_j=0
$$
O, después de la reorganización y de la solución para $a_j^*$:
$$
a_j^*=e^{-(\alpha+1)}e^{-\beta E_j}
$$
Poniendo Todo Junto:
Así que, todo lo que queda es resolver la indeterminación mutlipliers y conecte todo de nuevo en nuestra probabilidad de instrucción, $P_j=a_J^*/A$.
Esto se puede hacer de forma muy sencilla (y que en realidad no se preocupan por el mutliplier $\alpha$). Si tomamos la suma de todos los $j$ de la ecuación que escribió para $a_j^*$, nos damos cuenta de que el lado izquierdo es igual a $A$ debido a nuestra primera restricción y podemos arreglar para escribir $\alpha$ en términos de $\beta$:
$$
e^{\alpha+1}=\frac{1}{A}\sum_je^{-\beta E_j}
$$
A continuación, podemos encontrar el final de las probabilidades,
$$
P_j=\frac{a_j^*}{A}=\frac{e^{-(\alpha+1)}e^{-\beta E_j}}{A}=\frac{A}{\sum_je^{-\beta E_j}}\frac{e^{-\beta E_j}}{A}
$$
Por fin llegamos al final de la distribución de probabilidad que define la estadística de Boltzmann:
$$
P_j=\frac{e^{-\beta E_j}}{\sum_je^{-\beta E_j}}
$$
Así, sólo uno de estos multiplicadores de Lagrange que nos importa es $\beta$. No hemos encontrado lo que este multiplicadores es todavía, pero voy a parar aquí como debería ser ninguna sorpresa que el multiplicador es dado por $\beta=1/k_bT$.
Así que, creo que por encima de las respuestas a tu pregunta 1. Es decir, usted tiene que preocuparse acerca de las restricciones asociadas con usted ensemble así que lo que mencionas no acaba de funcionar.
En cuanto a su segunda pregunta, no es del todo cierto que la traducción de energía es continuo. Casi todo el mundo se imagina que es, pero la energía cinética es cuantificada. Es, sin embargo, es muy raro que los límites de una partícula se limita a son lo suficientemente pequeñas (e impermeable) que la cuantización de la energía cinética es notable. También, porque hay muchos de estos estados, que están estrechamente espaciadas, uno debe llegar a temperaturas muy bajas para la cuantificación de ser importante.
Lo que he descrito anteriormente, es el origen de la estadística de Boltzmann (no de Maxwell-Boltzmann como dice el título). Esta es una confusión muy común debido a la famosa Maxwell-Boltzmann de la distribución de velocidades. Sólo traigo esto a colación porque la de Maxwell-Boltzmann de la distribución de velocidades hace exactamente la aproximación que se describen por pretendiendo que el de las energías cinéticas son continuas.
Es que, si nos basta con conectar la energía cinética de una partícula $E=1/2mv_x^2$ en el resultado final (y tenga en cuenta la deonominator es la función de partición), obtenemos,
$$
P_{v_x}=\frac{e^{-\frac{mv_x^2}{2kT}}}{Q}
$$
Entonces, la función de partición, $Q$, es sólo una constante de normalización. Debido a que los estados de las diferentes energías cinéticas están tan estrechamente espaciados, podemos elevar $P_{v_x}$ a una función, $P(v_x)$, e integrar a través de todas las velocidades para determinar la probabilidad de encontrar una partícula con una velocidad de entre $v_x$$v_x+dv_x$. Voy a dejar esto como un ejercicio. Aviso que esto es sólo una integral sobre una función de gauss.