En 1999, Beyer et al. preguntaron, ¿Cuándo tiene sentido el "vecino más próximo"?
¿Existen mejores formas de analizar y visualizar el efecto de la planitud de la distancia en la búsqueda de NN desde 1999?
¿Proporciona [un determinado] conjunto de datos ¿El problema 10-NN? ¿El problema de 100 NN?
¿Cómo enfocarían hoy esta cuestión los expertos?
Editado lunes 24 ene:
¿Qué le parece "distancia blanca" como nombre abreviado de "distancia plana con dimensión creciente" ?
Una forma fácil de ver el "apagón de distancia" es ejecutar 2-NN y trazar las distancias al vecino más próximo y al segundo vecino más próximo. El gráfico siguiente muestra dist 1 y dist 2 para un rango de nclusters y dimensiones, mediante Monte Carlo. Este ejemplo muestra un contraste de distancias bastante bueno para la diferencia absoluta escalada |dist 2 - dist 1 |. (Las diferencias relativas |dist 2 / dist 1 | → 1 a medida que la dimensión → ∞, por lo que se vuelven inútiles).
Si deben utilizarse errores absolutos o relativos en un contexto determinado depende, por supuesto, del ruido "real" presente: difícil.
Sugerencia: siempre 2-NN; 2 vecinos son útiles cuando están cerca, y útiles cuando no.