Ok, así que vamos a analizar el ejemplo del niño de clústeres de sus juguetes.
Imagine que el niño tiene sólo 3 de los juguetes:
- una pelota de fútbol azul
- un azul freesbe
- un cubo verde (ok tal vez no sea el más divertido juguete que usted puede imaginar)
Vamos a hacer lo siguiente hipótesis inicial acerca de cómo un juguete, puede ser:
- Posibles colores son: rojo, verde, azul
- Posibles formas: círculo, cuadrado, triángulo
Ahora podemos tener (num_colors * num_shapes) = 3 * 3 = 9 posibles clusters.
El chico de clúster de los juguetes de la siguiente manera:
- Categoría a) contiene la bola azul y el azul freesbe, debido a que tienen el mismo color y la forma
- Categoría B) contiene la super-divertido cubo verde
Utilizando sólo estos 2 dimensiones (color, forma) tenemos 2 no vacío grupos: así, en este primer caso 7/9 ~ 77% de nuestro espacio está vacío.
Ahora vamos a aumentar el número de dimensiones que el niño tiene que tener en cuenta. Hacemos también la siguiente hipótesis sobre cómo un juguete, puede ser:
- Tamaño del juguete, puede variar entre pocos centímetros a 1 metro, en el paso de diez centímetros: 0-10cm, 11-20 cm, ..., 91cm-1m
- Peso del juguete puede variar de una manera similar hasta 1 kilogramo, con pasos de 100grams: 0-100 g de 101 a 200 g, ..., 901g-1kg.
Si queremos clúster de nuestros juguetes AHORA, tenemos (num_colors * num_shapes * num_sizes * num_weights) = 3 * 3 * 10 * 10= 900 los clústeres posibles.
El chico de clúster de los juguetes de la siguiente manera:
- Categoría a) contiene la pelota de fútbol azul porque es el color azul y pesados
- Categoría B) contiene el azul freesbe porque es azul y la luz
- Categoría C) contiene el super-divertido cubo verde
El uso de la corriente de 4 dimensiones (forma, color, tamaño, peso), sólo 3 de los clústeres son no vacías: en este caso 897/900 ~ 99,7% del espacio está vacío.
Este es un ejemplo de lo que puedes encontrar en la Wikipedia (https://en.wikipedia.org/wiki/Curse_of_dimensionality):
...cuando la dimensionalidad aumenta, el volumen del espacio aumenta tan rápido que los datos disponibles se dispersa.
Edit: no estoy seguro de que realmente podía explicar a un niño por qué distancia de a veces va mal en alta dimensión de los espacios, pero vamos a continuar con nuestro ejemplo de el niño y sus juguetes.
Considerar sólo las 2 primeras funciones {el color, la forma} todo el mundo está de acuerdo en que la bola azul es más similar a la de color azul freesbe que el cubo verde.
Ahora vamos a añadir otro 98 características {decir: tamaño, peso, day_of_production_of_the_toy, material, suavidad, day_in_which_the_toy_was_bought_by_daddy, precio etc}: bueno, para mí sería cada vez más difícil juzgar qué juguete es similar a la que.
Así:
- Un gran número de características puede ser irrelevante en una cierta comparación de similitud, que conduce a la corrupción de la señal-a-ruido.
- En altas dimensiones, todos los ejemplos de "look-alike".
Si me escuchas, una buena charla es "Un Par de Cosas Útiles para Saber acerca de la Máquina de Aprendizaje" (http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf), párrafo 6, en particular, presenta este tipo de razonamiento.
Espero que esto ayude!