En el artículo "Cuando Es "Vecino más Cercano' Significativas?" leemos que,
Se demuestra que, bajo ciertas condiciones amplias (en términos de datos y la consulta de las distribuciones, o la carga de trabajo), como dimensionalidad aumenta, la distancia al vecino más cercano, los enfoques de la distancia al vecino más lejano. En otras palabras, el contraste de las distancias a los diferentes puntos de datos se vuelve inexistente. Las condiciones que hemos identicado en el que esto ocurre son mucho más amplio que el de los independientes e idénticamente distribuidas (IID) dimensiones de la suposición de que otro trabajo que supone.
Mi pregunta es, ¿cómo debo generar un conjunto de datos que se produce este efecto?
He creado tres puntos cada uno con 1000 dimensiones con números aleatorios que van de 0 a 255 para cada dimensión, pero los puntos de crear diferentes distancias y no reproducir lo que se ha mencionado anteriormente. Parece que el cambio de las dimensiones (por ejemplo, 10 o 100 o 1000 dimensiones) y rangos (por ejemplo, [0,1]) no cambiar nada. Todavía puedo obtener diferentes distancias, que no debe ser ningún problema para, por ejemplo, algoritmos de clustering!
Edit: he intentado más muestras, basado en mis experimentos distancias entre los puntos no convergen a cualquier número, por el contrario, el max y min distancias entre los puntos más evidente. Esto también es contrario a lo que está escrito en el primer post de la Necesidad más que la intuición de la maldición de la dimensionalidad y también en muchos otros lugares que dicen la misma cosa como https://en.wikipedia.org/wiki/Clustering_high-dimensional_data#Problems. Todavía les agradecería si alguien me puede mostrar con un pedazo de código real o conjunto de datos que a tal efecto existen en escenarios prácticos.