Hay muchas formas diferentes de calcular la distancia entre conjuntos de datos, pero al principio puede ser difícil tener una visión general, porque se utilizan muchos nombres diferentes. Todo depende de cuán rigurosa necesite ser su matemática (por ejemplo, busque "métrica", "norma" y "distancia").
Si solo necesita distancias en el espacio euclidiano, eche un vistazo al artículo de Wikipedia:
Distancia de 1-norma = $\sum_{i=1}^n \left| x_i - y_i \right|$
Distancia de 2-norma = $\left( \sum_{i=1}^n \left| x_i - y_i \right|^2 \right)^{1/2}$
Distancia de p-norma = $\left( \sum_{i=1}^n \left| x_i - y_i \right|^p \right)^{1/p}$
Distancia de norma $\infty$ = $\lim_{p \to \infty} \left( \sum_{i=1}^n \left| x_i - y_i \right|^p \right)^{1/p} > = \max \left(|x_1 - y_1|, |x_2 - y_2|, \ldots, |x_n - y_n| \right)$.
Exactamente lo que utilizará depende de sus necesidades, todas estas distancias tienen significados diferentes: la norma $L_1$, por ejemplo, es la llamada distancia "taxi-cab", la norma $L_2$ es la distancia euclidiana, etc. Tal vez debería consultar un libro de estadísticas o aprendizaje automático para informarse sobre las diferencias.
Tenga en cuenta que en general desea normalizar su distancia, para que no dependa del número de puntos de datos. Por lo tanto, debería calcular la media de estas distancias sobre todo el conjunto de datos. Esto significa que su $$ \sum_{i,j} (D^k_{i,j}-I_{i,j})^2 $$ debería ser en realidad $$ \frac{1}{N}\sum_{i,j} (D^k_{i,j}-I_{i,j})^2\,, $$ donde $N$ es el número de puntos de datos (ya sea $m$ o $n$, dependiendo de su conjunto de datos).
La distancia de Mahalanobis solo se puede usar si su conjunto de datos contiene distribuciones gaussianas en lugar de solo puntos. Entonces, la distancia de Mahalanobis es la norma $L_2$, ponderada por la precisión de la distribución, pero esto va demasiado lejos, supongo que no lo necesita.