¿Variante del análisis discriminante para conocer múltiples clasificaciones independientes?

Question

¿Variante del análisis discriminante para conocer múltiples clasificaciones independientes?

Preguntado el 14 de Octubre, 2011: Cuando se hizo la pregunta
351 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Tengo un gran conjunto de datos: más de 100.000 puntos de datos, cada uno con 60 dimensiones. Quiero mostrar los datos en 2D visiblemente maximizar la separación entre las clases, que sé que para cada punto. Me hicieron una pregunta similar antes, y el Análisis Discriminante Lineal (LDA) se sugirió -- una respuesta sólida.

Ahora, además de saber que cada punto de datos cae en una cierta clase (digamos 1/2/3), cada uno de estos puntos de datos tiene también un segundo tipo de clasificación (es decir A/B/C). Me gustaría visualizar cómo estos puntos de clúster en una clase, y luego ver que tan similares son las subestructuras de los clusters se cuando cada grupo se divide en función de los otros de la clase. Por ejemplo, si elegimos el numérico de la clase para el "exterior" de la agrupación y por orden alfabético de la clase para el "interior" de la agrupación, me gustaría encontrar la representación en 2D de los datos que hace que se vea al máximo como este:

A sample classification diagram

Los puntos de bonificación si podemos encontrar una manera de garantizar que el A/B/C subclases son todos orientados de la misma manera con respecto a cada uno de los otros, para cada clase principal. Nota, sin embargo, que yo también esperaría a ser capaz de realizar la agrupación en clústeres en el orden opuesto (con el orden alfabético de la clase formando el "exterior" de los clusters y el número de clases que forman el "interior" clusters) debido a que las clasificaciones son independientes.

El problema con LDA en este contexto es que, cuando se considera sólo a una clase a la vez, se maximiza el entre-clase de separación en el gasto de, potencialmente, desdibujando los límites de la clase en el resultado de la visualización, ya que no sabe acerca de que la otra clase existe. Así, cuando visualizo LDA en una clasificación, las distinciones por la segunda clasificación no son tan claras como deberían. Sin embargo, si hago un 9-camino LDA (con cada clase de ser una combinación de las dos clasificaciones, como 1A), veo a 9 grupos, pero ellos no están agrupados en cualquier fácilmente es visualizable manera; esto es el esperado, sin embargo, debido a que las clasificaciones son independientes (por no mencionar el hecho de que ahora hay 8 LD dimensiones).

Me pongo a pensar de esta manera. Decir que me inicio en el centro de la figura anterior. Si yo sé que instancia numérica de la clase que yo quiero, puedo saber en qué dirección se mueven en: abajo durante 1, arriba-izquierda para 2, arriba-derecha de 3. El objetivo es mostrar que, no importa qué numérica de clúster a la que asistí, me tienen las mismas opciones de dirección si quiero pasar de que el centro del cúmulo a una alfabético de clúster. En cada caso, arriba-izquierda, abajo, B, y, arriba a la derecha para C. Y, por supuesto, yo esperaría que el mismo es cierto si las clasificaciones se realizan en sentido inverso (aunque esto requeriría una cifra diferente).

Hay técnicas estándar para realizar este tipo de cluster jerárquico de la visualización? Si no, cualquier consejo sobre cómo empezar?

ACTUALIZACIÓN:

La mejor solución que he encontrado hasta ahora es llevar a cabo dos por separado LDAs: uno para el orden alfabético de la clase y uno para el numérico de la clase. Entonces puedo visualizar la primera dimensión de cada uno en el mismo gráfico, como este:

Best-so-far classification diagram

Mientras que esto me da algo como la imagen que estaba buscando, no estoy seguro de que se demuestra que es lo que quería demostrar, que es que los datos representan estos dos tipos de clasificaciones de forma independiente. Mientras este gráfico hace que se vea como los datos lo confirman, que el argumento robusto voy a tener que mostrar que el orden alfabético de LD y el número de LD no están correlacionados.

Preguntado el 14 de Octubre, 2011 por Josh

Answer 1

1 Respuestas

Answer 2

4voto

Uri Puntos 111

Me temo que su expectativa de que el clúster de datos en el espacio de forma jerárquica, como clases y subclases, es una ilusión. Si hubiera sido cierto, entonces la clase 9 LDA podría no oculta el hecho de que las subclases están más cerca unos de otros que en las clases. La presunción debe ser que hay 9 clases, y si el análisis tratando de distinguir de todos ellos hace que la configuración anidada, entonces podemos decir que existe. Y probablemente este no sea su caso.

Hizo usted revise sus datos con algunos de clústeres de criterio, como Calinski-Harabasz? Podría ser que el 9-solución de clúster no es peor o mejor que la 3-solución de clúster. Si es así, usted no puede hablar de "3 subclases dentro de 3 clases", como natural de la estructura de los datos.

Respondido el 15 de Octubre, 2011 por Uri (111 Puntos )

¿Variante del análisis discriminante para conocer múltiples clasificaciones independientes?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Variante del análisis discriminante para conocer múltiples clasificaciones independientes?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: