Podría ayudar a dar una visión un poco más general de la MMD. $\DeclareMathOperator{\E}{\mathbb E}\newcommand{\R}{\mathbb R}\newcommand{\X}{\mathcal X}\newcommand{\h}{\mathcal H}\DeclareMathOperator{\MMD}{MMD}$
En general, el MMD se define por la idea de representar las distancias entre distribuciones como distancias entre media de incrustaciones de características. Es decir, digamos que tenemos distribuciones $P$ y $Q$ sobre un conjunto $\X$ . La MMD se define por un mapa de características $\varphi : \X \to \h$ , donde $\mathcal H$ es lo que se llama un espacio de Hilbert de núcleo reproductor. En general, el MMD es $$ \MMD(P, Q) = \lVert \E_{X \sim P}[ \varphi(X) ] - \E_{Y \sim Q}[ \varphi(Y) ] \rVert_\h .$$
Por ejemplo, podríamos tener $\X = \h = \R^d$ y $\varphi(x) = x$ . En ese caso: \begin{align} \MMD(P, Q) &= \lVert \E_{X \sim P}[ \varphi(X) ] - \E_{Y \sim Q}[ \varphi(Y) ] \rVert_\h \\&= \lVert \E_{X \sim P}[ X ] - \E_{Y \sim Q}[ Y ] \rVert_{\R^d} \\&= \lVert \mu_P - \mu_Q \rVert_{\R^d} ,\end{align} por lo que esta MMD es sólo la distancia entre las medias de las dos distribuciones. Las distribuciones que coincidan de esta manera coincidirán con sus medias, aunque puedan diferir en su varianza o en otros aspectos.
Su caso es ligeramente diferente: tenemos $\mathcal X = \mathbb R^d$ y $\mathcal H = \mathbb R^p$ con $\varphi(x) = A' x$ , donde $A$ es un $d \times p$ matriz. Así que tenemos \begin{align} \MMD(P, Q) &= \lVert \E_{X \sim P}[ \varphi(X) ] - \E_{Y \sim Q}[ \varphi(Y) ] \rVert_\h \\&= \lVert \E_{X \sim P}[ A' X ] - \E_{Y \sim Q}[ A' Y ] \rVert_{\R^p} \\&= \lVert A' \E_{X \sim P}[ X ] - A' \E_{Y \sim Q}[ Y ] \rVert_{\R^p} \\&= \lVert A'( \mu_P - \mu_Q ) \rVert_{\R^p} .\end{align} Esta MMD es la diferencia entre dos proyecciones diferentes de la media. Si $p < d$ o el mapeo $A'$ de lo contrario no es invertible, entonces este MMD es más débil que la anterior: no distingue entre algunas distribuciones que sí lo hace la anterior.
También puedes construir distancias más fuertes. Por ejemplo, si $\X = \R$ y usted utiliza $\varphi(x) = (x, x^2)$ entonces la MMD se convierte en $\sqrt{(\E X - \E Y)^2 + (\E X^2 - \E Y^2)^2}$ y puede distinguir no sólo distribuciones con diferentes medias sino también con diferentes varianzas.
Y puedes ser mucho más fuerte que eso: si $\varphi$ mapea a un espacio de Hilbert de núcleo reproductor general, entonces se puede aplicar la truco del núcleo para calcular la MMD, y resulta que muchos núcleos, incluido el núcleo gaussiano, conducen a que la MMD sea cero si y sólo si las distribuciones son idénticas.
En concreto, dejar que $k(x, y) = \langle \varphi(x), \varphi(y) \rangle_\h$ , se obtiene \begin{align} \MMD^2(P, Q) &= \lVert \E_{X \sim P} \varphi(X) - \E_{Y \sim Q} \varphi(Y) \rVert_\h^2 \\&= \langle \E_{X \sim P} \varphi(X), \E_{X' \sim P} \varphi(X') \rangle_\h + \langle \E_{Y \sim Q} \varphi(Y), \E_{Y' \sim Q} \varphi(Y') \rangle_\h - 2 \langle \E_{X \sim P} \varphi(X), \E_{Y \sim Q} \varphi(Y) \rangle_\h \\&= \E_{X, X' \sim P} k(X, X') + \E_{Y, Y' \sim Q} k(Y, Y') - 2 \E_{X \sim P, Y \sim Q} k(X, Y) \end{align} que se puede estimar directamente con muestras.
Actualización: de aquí viene el "máximo" del nombre.
El mapa de características $\varphi: \X \to \h$ mapea en un espacio de Hilbert de núcleo reproductor. Estos son espacios de funciones y satisfacen una propiedad clave (llamada propiedad reproductora ): $\langle f, \varphi(x) \rangle_\h = f(x)$ para cualquier $f \in \h$ .
En el ejemplo más sencillo, $\X = \h = \R^d$ con $\varphi(x) = x$ , vemos cada $f \in \h$ como la función correspondiente a algún $w \in \R^d$ , por $f(x) = w' x$ . Entonces la propiedad de reproducción $\langle f, \varphi(x) \rangle_\h = \langle w, x \rangle_{\R^d}$ debería tener sentido.
En configuraciones más complejas, como un núcleo gaussiano, $f$ es una función mucho más complicada, pero la propiedad de reproducción se mantiene.
Ahora, podemos dar una caracterización alternativa de la MMD: \begin{align} \MMD(P, Q) &= \lVert \E_{X \sim P}[\varphi(X)] - \E_{Y \sim Q}[\varphi(Y)] \rVert_\h \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \langle f, \E_{X \sim P}[\varphi(X)] - \E_{Y \sim Q}[\varphi(Y)] \rangle_\h \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \langle f, \E_{X \sim P}[\varphi(X)] \rangle_\h - \langle f, \E_{Y \sim Q}[\varphi(Y)] \rangle_\h \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \E_{X \sim P}[\langle f, \varphi(X)\rangle_\h] - \E_{Y \sim Q}[\langle f, \varphi(Y) \rangle_\h] \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \E_{X \sim P}[f(X)] - \E_{Y \sim Q}[f(Y)] .\end{align} La segunda línea es un hecho general sobre las normas en los espacios de Hilbert: $\sup_{f : \lVert f \rVert \le 1} \langle f, g \rangle_\h = \lVert g \rVert$ se consigue mediante $f = g / \lVert g \rVert$ . La cuarta depende de una condición técnica conocida como integrabilidad de Bochner, pero es cierta, por ejemplo, para núcleos acotados o distribuciones con soporte acotado. Al final utilizamos la propiedad de reproducción.
Esta última línea es la razón por la que se llama "máxima discrepancia media" - es el máximo, sobre las funciones de prueba $f$ en la bola unitaria de $\h$ de la diferencia media entre las dos distribuciones.