La auto organización de mapa (SOM) es un espacio de relleno de cuadrícula que proporciona una discretised de reducción de dimensionalidad de los datos.
Puedes empezar con un espacio de alta dimensión de los puntos de datos, y un arbitrario de la cuadrícula que se encuentra en ese espacio. La red puede ser de cualquier dimensión, pero normalmente es menor que la dimensión de su conjunto de datos, y es comúnmente 2D, debido a que es fácil de visualizar.
Para cada dato en el conjunto de datos, usted encuentra el más cercano punto de la cuadrícula, y "tirar" de que punto de la rejilla hacia el conjunto de datos. También tire de cada uno de los vecinos de los puntos de cuadrícula hacia la nueva posición del primer punto de la rejilla. En el inicio del proceso, tirar un montón de los vecinos hacia el punto de datos. Más adelante en el proceso, cuando la cuadrícula está empezando a llenar el espacio, se mueven menos vecinos, y esto actúa como una especie de sintonía fina. Los resultados de este proceso en un conjunto de puntos en el espacio de datos que se ajustan a la forma del espacio razonablemente bien, pero también puede ser tratado como un menor dimensión de la cuadrícula.
Este es un proceso bien explicados por dos imágenes de la página 1468 de Kohonen de 1990 papel:
Esta imagen muestra un unidimensional mapa en una distribución uniforme en un triángulo. La cuadrícula se inicia como un desorden en el centro, y poco a poco está tirado en una curva que llena el triángulo razonablemente bien, dado el número de puntos de cuadrícula:
La parte izquierda de esta segunda imagen muestra un 2D SOM red de cerca de llenar el espacio definido por los cactus forma en la izquierda:
Hay un video de la SOM proceso utilizando una rejilla 2D en un espacio 2D, y en un espacio 3D en youtube.
Ahora, cada uno de los puntos de datos originales en el espacio más cercano al prójimo, a la que está asignada. La cuadrícula son por lo tanto los centros de los grupos de puntos de datos. La cuadrícula proporciona la reducción de dimensionalidad.
Aquí está una comparación de la reducción de dimensionalidad mediante análisis de componentes principales (PCA), de la SOM página en la wikipedia:
Inmediatamente se observa que las dimensiones SOM proporciona un mejor ajuste a los datos, explicando más del 93% de la varianza, en comparación con el 77% de la PCA. Sin embargo, hasta donde yo sé, no hay ninguna manera fácil de explicar el resto de la varianza, como existe con PCA (utilizando dimensiones extra), ya que no hay manera impecable para desplegar los datos de todo el discreto SOM cuadrícula.