1 votos

Puntuación de similitud para comparar conjuntos de datos multidimensionales

Estoy tratando de idear un mecanismo para puntuar un conjunto de conjuntos de datos multidimensionales basados en una similitud con un conjunto de datos ideal. Cada conjunto de datos tendrá las mismas dimensiones junto con el ideal.

Así que el conjunto de datos $I$ es el ideal con $m$ filas y $n$ columnas, me gustaría poder comparar los conjuntos de datos $D^1, D^2, D^3, \dots$ basándome en cómo D1(i,j) se compara con $I_{i,j}$ y elaborar una medida de similitud que pueda utilizar para puntuar. Estoy pensando que una medida de distancia euclidiana de $$ \sum_{i,j} (D^k_{i,j}-I_{i,j})^2\,, $$ para las claves coincidentes podría ser la mejor opción, pero me gustaría algunas sugerencias sobre cómo abordar este problema. También he escuchado sobre el enfoque de la distancia de Mahalanobis. Cualquier sugerencia será bienvenida.

Gracias de antemano.

1voto

Edgar Puntos 23

Hay muchas formas diferentes de calcular la distancia entre conjuntos de datos, pero al principio puede ser difícil tener una visión general, porque se utilizan muchos nombres diferentes. Todo depende de cuán rigurosa necesite ser su matemática (por ejemplo, busque "métrica", "norma" y "distancia").

Si solo necesita distancias en el espacio euclidiano, eche un vistazo al artículo de Wikipedia:

Distancia de 1-norma = $\sum_{i=1}^n \left| x_i - y_i \right|$

Distancia de 2-norma = $\left( \sum_{i=1}^n \left| x_i - y_i \right|^2 \right)^{1/2}$

Distancia de p-norma = $\left( \sum_{i=1}^n \left| x_i - y_i \right|^p \right)^{1/p}$

Distancia de norma $\infty$ = $\lim_{p \to \infty} \left( \sum_{i=1}^n \left| x_i - y_i \right|^p \right)^{1/p} > = \max \left(|x_1 - y_1|, |x_2 - y_2|, \ldots, |x_n - y_n| \right)$.

Exactamente lo que utilizará depende de sus necesidades, todas estas distancias tienen significados diferentes: la norma $L_1$, por ejemplo, es la llamada distancia "taxi-cab", la norma $L_2$ es la distancia euclidiana, etc. Tal vez debería consultar un libro de estadísticas o aprendizaje automático para informarse sobre las diferencias.

Tenga en cuenta que en general desea normalizar su distancia, para que no dependa del número de puntos de datos. Por lo tanto, debería calcular la media de estas distancias sobre todo el conjunto de datos. Esto significa que su $$ \sum_{i,j} (D^k_{i,j}-I_{i,j})^2 $$ debería ser en realidad $$ \frac{1}{N}\sum_{i,j} (D^k_{i,j}-I_{i,j})^2\,, $$ donde $N$ es el número de puntos de datos (ya sea $m$ o $n$, dependiendo de su conjunto de datos).

La distancia de Mahalanobis solo se puede usar si su conjunto de datos contiene distribuciones gaussianas en lugar de solo puntos. Entonces, la distancia de Mahalanobis es la norma $L_2$, ponderada por la precisión de la distribución, pero esto va demasiado lejos, supongo que no lo necesita.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X