15 votos

$L_1$ o $L_.5$ métricas para la agrupación?

¿Alguien usa el $L_1$ o $L_.5$ métricas para la agrupación, en lugar de $L_2$ ?
Aggarwal et al., En el sorprendente comportamiento de la distancia, las métricas de alta el espacio tridimensional dijo (en 2001) que

$L_1$ es consistentemente más preferible a continuación, la distancia Euclidiana métrica $L_2$ para grandes dimensiones de minería de datos aplicaciones

y afirmó que $L_.5$ o $L_.1$ puede ser mejor aún.

Razones para el uso de $L_1$ o $L_.5$ puede ser teórico o experimental, por ejemplo, la sensibilidad a los valores atípicos / Kabán los papeles, o los programas se ejecutan en real o sintético de datos (reproducible por favor). Un ejemplo, o una imagen que me ayudara a mi laico de la intuición.

Esta pregunta es una pregunta de seguimiento a Bob Durrant, la respuesta a Cuando-es-vecino más cercano-significativo-el día de hoy. Como él dice, la elección de $p$ datos y depende de la aplicación; sin embargo, informes de la experiencia real, sería útil.


Notas agregadas martes 7 de junio:

Me topé con "Análisis estadístico de datos basado en la L1-norma y métodos relacionados", Dodge ed., 2002, 454p, isbn 3764369205 — decenas de documentos de la conferencia.

¿Alguien puede analizar distancia de concentración para el yo.yo.d. exponencial características ? Una de las razones por las exponenciales es que $|exp - exp| \sim exp$; otro (no experto) es que es el máximo de entropía de la distribución de $\ge$ 0; una tercera es que algunos de los verdaderos conjuntos de datos, en particular, Criba, mira aproximadamente exponencial.

6voto

Bou Puntos 1859

La clave aquí es la comprensión de la "maldición de la dimensionalidad" el papel de las referencias. De la wikipedia: cuando el número de dimensiones que es muy grande,

casi todo el espacio de alta dimensión está "lejos" del centro, o, para decirlo de otra manera, el alto dimensiones unidad de espacio se puede decir que consiste casi enteramente de las "esquinas" de la hipercubo, con casi ningún "medio"

Como resultado, comienza a tener dificultad para pensar acerca de los puntos que están cerca que otros de los puntos, porque son todos más o menos igual de lejos. Este es el problema en el primer papel que ha vinculado.

El problema con alta p es que enfatiza los valores más grandes--cinco al cuadrado y cuatro cuadrado son nueve unidades de diferencia, pero un cuadrado y dos al cuadrado son sólo tres unidades de distancia. Así que el de mayores dimensiones (cosas en las esquinas) lo dominan todo y se pierde el contraste. Así que esta inflación de grandes distancias es lo que queremos evitar. Con fracciones de p, el énfasis es sobre las diferencias en las dimensiones más pequeñas--dimensiones que en realidad tienen valores intermedios-que le da más contraste.

1voto

Kanetik Puntos 21

Hay un papel con el Lp métrico con p entre 1 y 5 que es posible que desee echar un vistazo:

Amorim, de hormigón armado y .. Mirkin, B., de la Métrica de Minkowski, en Función de la Ponderación y la Anómala Clúster de Inicialización en K-means Clustering, Reconocimiento de patrones, vol. 45(3), pp 1061-1075, 2012

Descargar https://www.researchgate.net/publication/232282003_Author's_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_initializing_in_k-Means_clustering/file/d912f508115a040b45.pdf

0voto

Hoffmann Puntos 3585

No sé si el tuyo es un problema de la inferencia. Si el problema es de inferir un vector de $\mathbb{R}^n$ bajo ciertas restricciones(que debe definir un conjunto convexo cerrado) cuando antes de adivinar decir $u$ es dado entonces el vector se infiere mediante la minimización de la $\ell_2$-distancia de $u$ sobre el conjunto de restricciones (si el estado de la $u$ no es dada, a continuación, sólo mediante la minimización de la $\ell_2$-norma). El principio anterior se justifica como la cosa correcta a hacer, bajo ciertas circunstancias, en este papel http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176348385.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X