¿Qué hay de nuevo en esta respuesta con respecto a las otras? Introduzco el operador de densidad insertando la identidad $1 = \sum \vert i\rangle \langle i \vert$ en la media, de forma similar a como se puede utilizar el $\operatorname{tr} \langle A \rangle = \langle A \rangle$ truco para hacer lo mismo.
Comentarios conceptuales. La matriz de densidad aparece siempre que tu sistema forma parte de un sistema mayor e interactúa con él. Como no puedes modelizar el total, promedias el efecto del otro sistema sobre el tuyo. Esto equivale a tomar una "distribución/estado marginal". Puede interpretarse como que el sistema está en un estado puro u otro con diferentes probabilidades.
Los detalles matemáticos
Supongamos que tenemos un sistema que dividimos en un subsistema y un entorno. Conocemos una base para el subsistema, $\vert {\phi_i} \rangle$ y para el medio ambiente, $\vert {\xi_j} \rangle$ . Asumo que son ortonormales. Entonces un estado genérico es: $$ \vert {\psi} \rangle = \sum_{ij} c_{ij} \vert {\phi_i} \rangle \otimes \vert {\xi_j} \rangle $$ Supongamos que queremos realizar una medición sólo en nuestro subsistema, es decir, que tenemos un operador $O$ que sólo actúa sobre $\vert {\phi_i} \rangle$ : $$ (O\otimes {1}) (\vert {\phi_i} \rangle \otimes \vert{\xi_j}) \rangle \equiv (O\vert {\phi_i})\rangle \otimes \vert {\xi_j} \rangle $$ Su valor esperado viene dado por \begin {align*} \langle O \rangle = \langle { \psi } \vert O \vert { \psi } \rangle \end {align*} No sabemos el estado total $\vert \psi \rangle$ pero sí conocemos los posibles estados de nuestro subsistema, $\lbrace \vert \phi_m \rangle\rbrace$ . ¿Qué es lo mejor que podemos hacer sabiendo sólo esto?
Podemos utilizar la expresión completa de $ \vert {\psi} \rangle$ y tratar de "ocultar" las cosas que no sabemos calcular, como las expresiones que implican $\vert {\xi_j} \rangle$ . Podemos utilizar que el producto interno de los productos tensoriales es $(\langle \phi_i \vert \otimes \langle \xi_j \vert)(\vert \phi_k \rangle \otimes \vert \xi_l \rangle)=\langle \phi_i \vert \phi_k \rangle \langle \xi_j \vert \xi_l \rangle$ (o, alternativamente, se puede pensar que el producto tensorial está definido de manera que esto es cierto por construcción).
\begin {align*} \langle O \rangle = \langle { \psi } \vert O \vert { \psi } \rangle = & \sum_ {ij} \sum_ {kl}c_{kl} c_{ij}^* ( \langle \phi_i \vert \otimes \langle \xi_j \vert ) ( O \otimes 1 ) ( \vert \phi_k \rangle \otimes \vert \xi_l \rangle ) \\ =& \sum_ {ij} \sum_ {kl} c_{kl}c_{ij}^* \langle \phi_i \vert O \vert \phi_k \rangle \langle \xi_j \vert \xi_l \rangle \\ =& \sum_ {ik} \left ( \sum_ {m} c_{km}c_{im}^* \right ) \langle \phi_i \vert O \vert \phi_k \rangle \\ =& \sum_ {ik} p_{ki} \langle \phi_i \vert O \vert \phi_k \rangle \end {align*}
Así que básicamente hasta aquí es, porque $p_{ki}$ nos da toda la información que necesitamos para calcular el valor medio; $p_{ki}$ es el distribución marginal de $c_{ij}^* c_{kl}$ (por "marginal" queremos decir que integramos o sumamos la probabilidad sobre los grados de libertad del entorno).
Como tiene dos índices podríamos pensar que es el elemento de una matriz, y esa matriz es fácil de construir, sólo insertamos la identidad $1=\sum_m \vert \phi_m \rangle \langle \phi_m \vert$ y obtener la matriz de densidad $\rho$ utilizando la conmutatividad de los escalares (podemos desplazarlos en el producto): \begin {align*} \sum_ {ik} p_{ik} \langle \phi_i \vert O \vert \phi_k \rangle = & \sum_ {ik} p_{ik} \langle \phi_i \vert \sum_m \vert \phi_m \rangle \langle \phi_m \vert O \vert \phi_k \rangle \\ = & \sum_ {ik} \sum_m p_{ik} \langle \phi_m \vert O \vert \phi_k \rangle \langle \phi_i \vert \phi_m \rangle \\ = & \sum_m \langle \phi_m \vert O \left ( \sum_ {ik} p_{ik} \vert \phi_k \rangle \langle \phi_i \vert\right ) \vert \phi_m \rangle = \sum_m \langle \phi_m \vert O \rho \vert \phi_m \rangle \equiv \operatorname {tr} O \rho \end {align*} donde $\rho=\sum_{ik} p_{ki} \vert \phi_k \rangle \langle \phi_i \vert$ .
Más comentarios
Hemos reducido el cálculo de la media global a calcular las medias sobre los estados de nuestro subsistema de un nuevo objeto, $O\rho$ . El objeto $\rho$ tiene ocultos tanto el estado de nuestro subsistema como el efecto medio del entorno. Haré algunos comentarios más sobre cómo se puede pensar en $\rho$ y la justificación matemática.
En primer lugar, es fácil demostrar (ver cualquier libro de texto o Wikipedia) que $\rho^\dagger = \rho$ por lo que existe una base ortonormal en la que $\rho$ es diagonal: $$ \rho = \sum_\lambda p_\lambda \vert \lambda \rangle \langle \lambda \vert \quad \sum p_\lambda = 1 $$ ¿Cuál es el significado de los estados $\vert \lambda \rangle$ ? Representan los estados más "clásicos". Esto es así porque son estados ortonormales, $\langle \lambda \vert \lambda^{'} \rangle=\delta_{\lambda \lambda^{'}}$ No existe ninguna correlación entre ellos. Son tan mutuamente excluyentes como se puede conseguir, lo que significa que si usted sabe que su sistema está en el estado $\vert \lambda \rangle$ entonces automáticamente no puede estar en $\vert \lambda^{'} \rangle$ si $\lambda^{'}\neq \lambda$ porque la proyección sobre ella es cero.
Considere un sistema de dos niveles $\lbrace \vert 0 \rangle, \vert 1 \rangle \rbrace$ . Entonces, si usted está en el estado $\vert 0 \rangle$ , sabes que no puedes estar en $\vert 1 \rangle$ pero tienes $50\%$ de estar en cualquiera de los dos estados diagonales, por lo que el sistema no es "clásico" en cuanto a los estados diagonales. Además, si se asegura que todas las partículas están en uno de estos estados ( $\vert 0 \rangle$ o $\vert 1 \rangle$ ), se puede medir sin colapsar siempre que se tenga un observable con $\lbrace \vert 0 \rangle, \vert 1 \rangle \rbrace$ como estados propios.
Ese observable siempre existe porque podemos construirlo nosotros mismos, sólo necesitamos que tenga los mismos estados propios que la matriz de densidad, $\lbrace \vert \lambda \rangle \rbrace$ : $$ M = \sum_\lambda m_\lambda \vert \lambda \rangle \langle \lambda \vert $$ (Mide 0 en todo lo que está fuera de $\text{span}\lbrace \vert \lambda \rangle \rbrace$ ).
La utilidad de este observable es que podemos utilizarlo para preparar el estado mixto. Medimos un $\vert \psi \rangle$ . Después de la medición, conocemos el estado $\vert \lambda \rangle$ a la que se derrumbó. Tomaremos $N$ mediciones de $N$ diferentes estados y después de una medición mantendremos el estado o lo descartaremos según si nuestra relación de estados es la prescrita por la matriz de densidad, $p_\lambda = N_\lambda / N$ donde $N_\lambda$ es el número de estados en el estado $\vert \lambda \rangle$ . Si ahora medimos $M$ entonces el valor medio será
$$ \langle M \rangle = \sum \frac{N_\lambda}{N} \langle \lambda \vert M \vert \lambda \rangle = \sum p_\lambda m_\lambda $$
y vemos que se trata de una media clásica sobre $p_\lambda$ de la distribución $m_\lambda$ . Se puede demostrar que esto es igual a $\text{tr}M\rho$ .
Como curiosidad, Von Neumann utiliza la idea de $M$ en su libro "Fundamentos matemáticos de la mecánica cuántica" como una forma de implementar un filtro que separe los sistemas cuánticos de forma que no los colapse. Si tienes partículas en dos estados cuánticos diferentes y mezcladas en una caja, puedes separar físicamente las partículas con una pared móvil que actúa como filtro sólo si los posibles estados de las partículas son ortogonales. En ese caso puedes encontrar una medida que distinga entre los dos estados sin colapsarlos, lo que te permite crear un filtro que deje pasar o no un determinado tipo de partícula, permitiéndote separar los sistemas cuánticos.
Así que, para resumir, la primera introducción fue un enfoque descendente, en el que obtuvimos la matriz de densidad promediando el entorno, llegando al hecho de que matemáticamente el resultado es como tener una media sobre estados puros. El segundo enfoque es tomar ese "promedio sobre estados puros" como realidad y considerar conjuntos de estados puros. Entonces, si tenemos $N$ sistemas y $N_\lambda$ en el estado $\vert \lambda \rangle$ entonces el promedio de un observable sobre el $N$ da el mismo resultado que un estado mixto dado por $\rho$ .