Tengo un gran conjunto de datos: más de 100.000 puntos de datos, cada uno con 60 dimensiones. Quiero mostrar los datos en 2D visiblemente maximizar la separación entre las clases, que sé que para cada punto. Me hicieron una pregunta similar antes, y el Análisis Discriminante Lineal (LDA) se sugirió -- una respuesta sólida.
Ahora, además de saber que cada punto de datos cae en una cierta clase (digamos 1/2/3), cada uno de estos puntos de datos tiene también un segundo tipo de clasificación (es decir A/B/C). Me gustaría visualizar cómo estos puntos de clúster en una clase, y luego ver que tan similares son las subestructuras de los clusters se cuando cada grupo se divide en función de los otros de la clase. Por ejemplo, si elegimos el numérico de la clase para el "exterior" de la agrupación y por orden alfabético de la clase para el "interior" de la agrupación, me gustaría encontrar la representación en 2D de los datos que hace que se vea al máximo como este:
Los puntos de bonificación si podemos encontrar una manera de garantizar que el A/B/C subclases son todos orientados de la misma manera con respecto a cada uno de los otros, para cada clase principal. Nota, sin embargo, que yo también esperaría a ser capaz de realizar la agrupación en clústeres en el orden opuesto (con el orden alfabético de la clase formando el "exterior" de los clusters y el número de clases que forman el "interior" clusters) debido a que las clasificaciones son independientes.
El problema con LDA en este contexto es que, cuando se considera sólo a una clase a la vez, se maximiza el entre-clase de separación en el gasto de, potencialmente, desdibujando los límites de la clase en el resultado de la visualización, ya que no sabe acerca de que la otra clase existe. Así, cuando visualizo LDA en una clasificación, las distinciones por la segunda clasificación no son tan claras como deberían. Sin embargo, si hago un 9-camino LDA (con cada clase de ser una combinación de las dos clasificaciones, como 1A), veo a 9 grupos, pero ellos no están agrupados en cualquier fácilmente es visualizable manera; esto es el esperado, sin embargo, debido a que las clasificaciones son independientes (por no mencionar el hecho de que ahora hay 8 LD dimensiones).
Me pongo a pensar de esta manera. Decir que me inicio en el centro de la figura anterior. Si yo sé que instancia numérica de la clase que yo quiero, puedo saber en qué dirección se mueven en: abajo durante 1, arriba-izquierda para 2, arriba-derecha de 3. El objetivo es mostrar que, no importa qué numérica de clúster a la que asistí, me tienen las mismas opciones de dirección si quiero pasar de que el centro del cúmulo a una alfabético de clúster. En cada caso, arriba-izquierda, abajo, B, y, arriba a la derecha para C. Y, por supuesto, yo esperaría que el mismo es cierto si las clasificaciones se realizan en sentido inverso (aunque esto requeriría una cifra diferente).
Hay técnicas estándar para realizar este tipo de cluster jerárquico de la visualización? Si no, cualquier consejo sobre cómo empezar?
ACTUALIZACIÓN:
La mejor solución que he encontrado hasta ahora es llevar a cabo dos por separado LDAs: uno para el orden alfabético de la clase y uno para el numérico de la clase. Entonces puedo visualizar la primera dimensión de cada uno en el mismo gráfico, como este:
Mientras que esto me da algo como la imagen que estaba buscando, no estoy seguro de que se demuestra que es lo que quería demostrar, que es que los datos representan estos dos tipos de clasificaciones de forma independiente. Mientras este gráfico hace que se vea como los datos lo confirman, que el argumento robusto voy a tener que mostrar que el orden alfabético de LD y el número de LD no están correlacionados.