1 votos

Uso conjunto de PCA, clustering y LDA

Tras leer sobre ambos algoritmos (el análisis de componentes principales y el análisis discriminante lineal), empecé a utilizarlos combinados de una forma que me pareció intuitiva.

Tengo un conjunto de datos que proyecto en 3D utilizando PCA A continuación, agrupo los datos proyectados (por ejemplo, utilizando la agrupación de k-means) y tomo el grupo más grande como mi conjunto de datos válido y el resto se considera como valores atípicos. A continuación, utilizo LDA para proyectar mis datos originales válidos (no los proyectados por el PCA) en un espacio en el que la separación entre clases sea máxima. Este modelo se utiliza luego para clasificar los nuevos datos de entrada. Puede que también necesite mantener el modelo PCA para filtrar los nuevos datos de entrada, pero esto es otro tema.

Mi pregunta es: ¿Es correcto utilizar estos algoritmos de esta manera? ¿O sugeriría usted un enfoque diferente?

1voto

tchen Puntos 1344

Basándome en su descripción me parece un poco cutre y en algunos puntos incluso cuestionable.
A continuación, algunos de mis comentarios:

1) Proyectar los datos en 3 componentes principales.

  • ¿Por qué 3? La información que separa las clases podría no estar presente en los 3 primeros ejes rotados.

2) Utilizar la agrupación de k-means en estos componentes para seleccionar el grupo más grande y descartar los demás.

  • Pues bien, todas las muestras de este grupo serán similares entre sí. Si hay grandes diferencias entre sus clases, acabará reteniendo una clase y eliminando la mayoría del resto. De hecho, estará eliminando las muestras que podrían ser más informativas para su clasificador y conservando sólo las que no pueden separarse.

3) Realice el LDA en esta "bola" de puntos 3D.

  • El problema es que el LDA está diseñado para separar las clases basándose en sus distribuciones normales. Ambas clases comparten la misma matriz de covarianza, pero sus medias son diferentes: este es el supuesto con el que opera el LDA. Imagina que este es el caso de tus datos originales. Tus procedimientos (especialmente k-means) agruparían esas dos distribuciones en clusters separados y acabarías eliminando uno de ellos. Entonces se intentaría el LDA en una distribución restante, probablemente cercana a la normal.

En resumen: tiene poco sentido para mí. Y es difícil sugerir algo sin saber cuántas muestras y cuántas clases tiene.

De hecho, LDA y PCA se utilizan a menudo juntos, pero sin el k-means realizado en el medio. Uno de los usos del enfoque PCA + LDA es la aplicación de LDA en situaciones en las que hay más características que muestras. Puedes buscar el término "Fisher faces" o "Eigen faces" para ver ejemplos de su aplicación a la clasificación de imágenes de caras.

0voto

p_piotr3k Puntos 81

Suponiendo que tomes sólo los componentes principales de tus datos originales, la separación por LDA en ese conjunto está prácticamente bien.

Me parece que su objetivo es la detección de valores atípicos. Para ello, un máquina de vectores de apoyo de una clase puede ser adecuado en su conjunto de datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X