15 votos

La mejor medida de distancia para usar

Contexto

Tengo dos conjuntos de datos que quiero comparar. Cada elemento de los datos en ambos conjuntos es un vector que contiene 22 de ángulos (entre $-\pi$$\pi$). Los ángulos se refieren a un determinado humanos pose de configuración, por lo que una pose se define por 22 conjunta de los ángulos.

Lo que yo soy en última instancia, tratando de hacer es determinar la "cercanía" de los dos conjuntos de datos. Así, para cada pose (22D vector) en un juego, quiero encontrar a su vecino más cercano en el otro conjunto, y crear un pie de parcela para cada uno de los pares más cercanos.

Preguntas

  • Puedo simplemente utilizar la distancia Euclídea?
    • Para que sea significativo, es de suponer que la distancia métrica debía ser definido como: $\theta = |\theta_1 - \theta_2| \quad mod \quad \pi$ donde $|...|$ es el valor absoluto y el mod es el modulo. A continuación, utilizando el resultante 22 thetas, puedo realizar el estándar de cálculo de la distancia Euclidiana, $\sqrt{t_1^2 + t_2^2 + \ldots + t_{22}^2}$.
    • Es esto correcto?
  • Sería otra distancia métrica ser más útiles, tales como el chi-cuadrado, o Bhattacharyya, o alguna otra métrica? Si es así, ¿podría por favor proporcionar una idea de por qué.

7voto

SkaveRat Puntos 173

se puede calcular la matriz de covarianza para cada conjunto y, a continuación, calcular la distancia de Hausdorff entre los dos el uso de la distancia de Mahalanobis.

La distancia de Mahalanobis es una manera útil de la determinación de la similitud de un desconocido conjunto de la muestra a un conocido. Se diferencia de la distancia Euclídea en la que toma en cuenta las correlaciones del conjunto de datos y es la escala-invariante.

4voto

user3595 Puntos 29

¿Qué estás tratando de hacer con el vecino más cercano de la información?

Me gustaría responder a esa pregunta y, a continuación, comparar las diferentes medidas de distancia a la luz de eso.

Por ejemplo, digamos que usted está tratando de clasificar las actitudes basadas en la articulación de configuración, y le gustaría conjunto de vectores de la misma pose para estar juntos. Una forma sencilla de evaluar la idoneidad de las diferentes métricas de distancia es el uso de cada uno de ellos en un clasificador KNN, y comparar la muestra con precisiones de cada uno de los modelos resultantes.

2voto

Keith Sirmons Puntos 2558

Esto suena como que es similar a una determinada aplicación de la Recuperación de Información (IR). Hace un par de años asistí a una charla sobre la marcha reconocimiento de que suena similar a lo que está haciendo. La Recuperación de la Información, "documentos" (en su caso: una persona del ángulo de datos) en comparación con algunos consulta (que en su caso podría ser "¿hay una persona con un ángulo de datos (.., ..)"). A continuación, se enumeran los documentos en el orden de uno que se aproxime al más cercano hacia abajo para el que coincida con el menos. Que, a su vez, significa que un componente central de la IR es poner un documento en algún tipo de espacio vectorial (en su caso: ángulo de espacio) y la compara con una consulta específica o un documento de ejemplo o de la medición de su distancia. (Consulte a continuación). Si usted tiene una definición adecuada de la distancia entre dos vectores individuales, todo lo que tienes que hacer es venir para arriba con una medida de la distancia de dos conjuntos de datos. (Tradicionalmente en IR a la distancia en el espacio vectorial modelo es calculado por el coseno de la medida o la distancia Euclídea, pero no recuerdo cómo lo hicieron en ese caso). IR allí es también un mecanismo denominado "importancia de la retroalimentación" que, conceptualmente, trabaja con la distancia de dos conjuntos de documentos. Ese mecanismo que normalmente se utiliza una medida de la distancia, que resume todas las distancias entre todos los pares de documentos (o, en su caso: persona vectores). Tal vez es de utilidad para usted.

La siguiente página tiene algunos papeles que parecen relevantes para su problema: http://www.mpi-inf.mpg.de/~mmueller/index_publications.html Especialmente este http://www.mpi-inf.mpg.de/~mmueller/publications/2006_DemuthRoederMuellerEberhardt_mocapretrievalsystem_ecir.pdf parece muy interesante. El hablar de Müller a la que asistí menciona las medidas de similitud de Kovar y Gleicher llamada "nube de puntos" (ver http://portal.acm.org/citation.cfm?id=1186562.1015760&coll=DL&dl=ACM) y uno llamado "cuaterniones". Esperanza, ayuda.

2voto

Bob King Puntos 12913

Este problema se denomina Distancia Métrica de Aprendizaje. La distancia métrica puede ser representado como $\sqrt{(x-y)^tA(x-y)}$ donde $A$ es positivo semi-definida. Métodos bajo esta sub-área, aprender el óptimo $A$ para sus datos. De hecho, si el óptimo $A$ pasa a ser una matriz identidad, es bueno utilizar la distancia euclídea. Si es la inversa de la covarianza, sería óptimo para el uso de la distancia de Mahalanobis, y así sucesivamente y así sucesivamente. Por lo tanto, una distancia métrica método de aprendizaje debe ser usada para aprender el óptimo $A$, para aprender el derecho de la distancia métrica.

0voto

bentsai Puntos 1886

Uno de los problemas con el uso de los ángulos como un proxy para la forma es que pequeñas perturbaciones en los ángulos pueden llevar a grandes perturbaciones en la forma. Además, diferentes configuraciones de ángulo podría resultar en el mismo (o similar) de forma.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X