En primer lugar hay que distinguir entre dos cosas que se llaman entropías. Hay una entropía microscópica, también llamada Entropía de Shannon, que es una función sobre las posibles distribuciones de probabilidad que se pueden asignar para un sistema dado:
$\displaystyle H[p] = -\sum_{x \in \mathcal{X}}\; p(x) \log(p(x))$
donde $\mathcal{X}$ es el conjunto donde su variable x toma valores. Y hay una "entropía macroscópica", que no es más que el valor del funcional anterior calculado para una familia específica de distribuciones parametrizadas por alguna variable $\theta$ :
$S(\theta)=-\sum_{x \in \mathcal{X}}\; p(x|\theta) \log(p(x|\theta))$
Ahora bien, lo que ocurre en la termodinámica y en la física estadística del equilibrio es que tienes una familia específica de distribuciones para sustituir en la primera expresión: la distribución de equilibrio de Gibbs:
$p(x | V, T, N) = \frac{1}{Z}e^{-\frac{E(x)}{T}}$
donde, como ejemplo, tenemos como parámetros el volumen, la temperatura y el número de partículas, y E(x) es la energía de la configuración específica x. Si se sustituye esta familia específica de distribuciones en $H[p]$ Lo que tendrás es la entropía de equilibrio termodinámico, y esto es lo que los físicos suelen llamar entropía: una función de estado que depende de los parámetros de la distribución de Gibbs (a diferencia de una funcional que asocia un valor real para cada posible elección de distribuciones). Ahora, para encontrar cuál es el equilibrio físico apropiado para este sistema cuando se permite que esos parámetros varíen, hay que maximizar esta entropía (1).
Ahora bien, aquí es común hacer la siguiente distinción: x es una variable microscópica que especifica la configuración detallada del sistema, y V, T y N son parámetros macroscópicos. No es necesario que sea así. En el caso concreto de la física estadística, el origen de la función de distribución es el hecho de que hay tantos grados de libertad que es imposible (e incluso indeseable) seguirlos todos, por lo que nos conformamos con una descripción estadística. Bajo estos supuestos es natural esperar que la distribución sea sobre variables microscópicas con parámetros macroscópicos. Pero ésta no es la única razón por la que se utiliza una función de distribución.
Podrías tener otras fuentes de ignorancia. Por ejemplo, podríamos tener el siguiente problema: supongamos que hemos descubierto recientemente un nuevo planeta en un sistema solar en el que hay dos planetas más. Su posición $\vec{x}$ y la velocidad $\vec{v}$ en un instante determinado $t = 0$ se han medido con cierta precisión $\sigma_x$ y $\sigma_v$ . Supongamos que las fuentes de posibles errores en las medidas son aditivas. Entonces es razonable suponer que tenemos una distribución de probabilidad gaussiana para la posición del planeta:
$\displaystyle p(\vec{x}(0), \vec{v}(0) | \sigma_x, \sigma_v) =\frac{1}{Z} \exp\left(-\frac{x(0)^2}{2\sigma_x} -\frac{v(0)^2}{2\sigma_v} \right)$
donde Z es alguna constante de normalización. Ahora supongamos que queremos predecir la posición de este planeta en el futuro dadas las posiciones actuales de los otros planetas y sus incertidumbres. Tendríamos una distribución:
$\displaystyle p(\vec{x}(t), \vec{v}(t) | \vec{x}_i(0), \vec{v}_i(0), \sigma_{x,i},\sigma_{v,i})= \displaystyle p(\vec{x}(0), \vec{v}(0) | \sigma_x, \sigma_v)\prod_{i=1}^{2}\displaystyle p(\vec{x}_i(0), \vec{v}_i(0) | \sigma_{x,i}\sigma_{v,i}) \times$ $\times p(\vec{x}(t), \vec{v}(t) | \vec{x}(0), \vec{v}(0),\vec{x}_1(0), \vec{v}_1(0), \vec{x}_2(0), \vec{v}_2(0))$
donde $p(\vec{x}(t), \vec{v}(t) | \vec{x}(0), \vec{v}(0),\vec{x}_1(0), \vec{v}_1(0), \vec{x}_2(0), \vec{v}_2(0))$ tendría en cuenta las ecuaciones de movimiento de Newton. Obsérvese que aquí hay un número reducido de partículas: sólo 3. Y la única fuente de "aleatoriedad" es el hecho de que no conozco las posiciones y velocidades con precisión (por una razón tecnológica, no fundamental: Tengo telescopios limitados, por ejemplo).
Puedo sustituir esta distribución en la definición de entropía y calcular una "entropía macroscópica" que depende de las posiciones, velocidades y precisiones de medición de los otros planetas:
$S(x_i, v_i,\sigma_{x,i},\sigma_{v,i}) = - \int d\vec{x} d\vec{v} p(\vec{x}, \vec{v} | t, \vec{x}_i, \vec{v}_i, \sigma_{x,i},\sigma_{v,i}) \log \left[p(\vec{x}, \vec{v} |\vec{x}_i, \vec{v}_i, \sigma_{x,i},\sigma_{v,i})\right]$
¿Qué significa esta entropía? ¡¡¡Algo bastante parecido a lo que significa la entropía termodinámica!!! ¡¡Es el logaritmo del volumen medio del espacio de configuración donde espero encontrar el planeta dado en el instante t (2)!! Y es la entropía de una "sola partícula".
No hay ningún problema con eso. Incluso puedo tener situaciones en las que debo maximizar esta entropía. Supongamos que no conozco la posición del planeta 2, pero sí sé que los tres planetas tienen órbitas coplanares. Hay procedimientos bien definidos en la teoría de la información y la inferencia que me dicen que una forma de tratar esto es encontrar el valor de $\vec{x}_2$ que maximice la entropía, sujeto a la restricción de que todas las órbitas estén en el mismo plano, y luego sustituir este valor en la distribución original. Esto se suele llamar "principio de máxima ignorancia".
Hay interpretaciones de la termodinámica y de la física estadística como una instancia de este tipo de problema de inferencia (por favor, consulte los trabajos de E. T. Jaynes, daré una lista de referencias más abajo). En esta interpretación no hay nada de especial en el hecho de que se tengan muchos grados de libertad, además de que esto es lo que hace que se ignoren los detalles del sistema. Esta ignorancia es la que pone sobre la mesa las probabilidades, las entropías y los principios de máxima entropía.
Refrasearlo un poco, las probabilidades y entropías forman parte de su descripción cuando la ignorancia se construye en su modelo. Esta ignorancia puede ser fundamental - no puedes saber algo sobre tu sistema; puede ser técnica - podrías saberlo si tuvieras mejores instrumentos; e incluso, como en el caso de la física estadística, deliberada - puedes saberlo, al menos en principio, pero eliges omitir detalles porque no son relevantes en la escala que te interesa. Pero los detalles sobre cómo utilizas las probabilidades, las entropías y los principios de máxima entropía son completamente agnósticos respecto a cuáles son las fuentes de tu ignorancia. Son una herramienta para lidiar con la ignorancia, sin importar las razones por las que eres ignorante.
(1) Para los argumentos de la teoría de la información por los que tenemos que maximizar la entropía en la termodinámica, consulte el famoso libro de E. T. Jaynes "Probability Theory: The Logic of Science" (3) y esta serie de artículos:
Jaynes, E. T., 1957, Teoría de la información y mecánica estadística Phys. Rev., 106, 620
Jaynes, E. T., 1957, Teoría de la Información y Mecánica Estadística II Phys. Rev., 108, 171.
Otra fuente interesante:
Caticha, A., 2008, Conferencias sobre probabilidad, entropía y física estadística arxiv:0808.0012
(2) Esto puede tener un significado riguroso dentro de la teoría de la información. Para cualquier distribución p(x) sea el conjunto $A_\epsilon$ se definirá como el conjunto más pequeño de puntos con probabilidad mayor que $1 - \epsilon$ . Entonces el tamaño de este conjunto debe ser de orden:
$log |A_\epsilon| = S + O(\epsilon)$
Para otra forma de este resultado, véase el libro "Information Theory" de Cover y Thomas.
(3) Algunos de los desplantes de Jaynes sobre la teoría cuántica en este libro pueden parecer impar hoy en día, pero vamos a disculparlo. Él también cometió algunos errores. Solo hay que centrarse en la teoría de la probabilidad, la teoría de la información y la física estadística que es bastante sorprendente :)
(4) Parece que el tratamiento de este tipo de problemas de la Mecánica Celeste fue en realidad uno de los primeros problemas que hicieron que Laplace se interesara por las probabilidades, y al parecer lo utilizó en los cálculos de la Mecánica Celeste. El otro problema que atrajo su atención hacia la teoría de la probabilidad fue... ¡el juego! Jajaja...