5 votos

Clasificando mediante la realización de PCA para dos clases por separado

Tengo un conjunto de datos con etiquetas binarias, y trato de averiguar si los datos pueden ser clasificados y producir las etiquetas de verdades del terreno. Pensé en probar el PCA para los datos con cada una de las etiquetas, y ver si obtengo una base / coeficientes de PCA diferentes. Esto es bajo el supuesto de que si los datos no son diferenciables, conseguiría (probablemente) que los coeficientes de PCA tuvieran formas similares.

La pregunta es, ¿es válido este método? Si obtengo diferentes coeficientes de PCA para los dos grupos, ¿significa esto que tienen diferentes propiedades estadísticas?

0 votos

Qué statistical properties ? ¿Y qué le hizo pensar que el ACP (que no es más que un caso especial de rotación) servirá de ayuda?

0 votos

Los coeficientes PCA son los vectores propios de la matriz de covarianza, por lo que si los datos no se pueden clasificar (proceden de la misma distribución), su transformación PCA arrojará los mismos coeficientes y, en caso contrario, obtendría coeficientes PCA diferentes.

2voto

zowens Puntos 1417

Si dos clases proceden de la misma distribución, entonces sí, los ACP separados deberían arrojar resultados similares. Pero lo contrario no es cierto. El ACP analiza la estructura de covarianza de los datos, lo que significa que ignora la media . Así pues, las dos clases pueden estar separadas linealmente al 100% (lo que conduce a una precisión de clasificación del 100% con un método lineal), pero seguir teniendo covarianzas dentro de la clase idénticas, por ejemplo:

two classes

Por lo tanto, su planteamiento no parece tener mucho sentido.

0 votos

Sí, ignora los medios. Pero si incluso después de esto, obtengo diferentes PCAs, significa que la estructura de covarianza de las dos clases es de hecho diferente, ¿verdad? Gracias por la respuesta.

1 votos

Pues sí, pero es poco probable que sea una información muy útil. La diferencia de medias suele ser mucho más importante a efectos de clasificación que la diferencia de covarianza. Imagine que los conglomerados azul y rojo de mi figura tienen la misma media, pero uno se extiende horizontalmente y otro verticalmente. Ningún método lineal de clasificación superará el rendimiento del azar, e incluso los métodos no lineales no tendrán mucho éxito (aunque los dos ACP serán tan diferentes como sea posible).

0 votos

Tengo datos que parecen muy similares: no hay diferencias en las medias cuando miro las combinaciones de características. Sin embargo, cuando realizo el ACP para cada una de ellas por separado, observo "conglomerados" diferentes en el espacio de coeficientes del ACP. La cuestión es cómo seguir a partir de aquí, cómo clasificar utilizando esta información.

2voto

karatchov Puntos 230

Como complemento a la respuesta de amoeba, daré un esbozo de una forma basada en principios para realizar la clasificación utilizando PCA probabilístico. pPCA es un modelo de la forma $$ p(x) = \mathcal{N}(\mu, C) $$ donde $\mu = \mathbb{E}[x]$ y $C = WWT + \sigma^2 I$ . Encontrar los parámetros (es decir $\mu, W, \sigma^2$ ) puede hacerse por máxima verosimilitud. Si $\sigma^2 \rightarrow 0$ se recupera el modelo PCA estándar. Sin embargo, este modelo incluye la media.

Ahora, se puede obtener una regla de clasificación haciendo uso de la fórmula de Bayes. Estimamos los parámetros de cada clase $i$ por separado y puede conseguir: $$p(c_i|x) = {p(x|c_i)p(c_i) \over p(x)},$$ donde $p(c)$ son las priores de clase y $p(x|c)$ representa el ACP específico de la clase. Este es un ejemplo de modelo generativo de clasificación .

Algunas intuiciones son las siguientes. Supongamos que ambas clases tienen la misma probabilidad (por ejemplo $p(c_i) \propto 1$ ).

Si $C_i = I$ simplemente asignaremos cada punto a la clase con la media más cercana. Si $C_i = C_j \forall i, j$ se utilizará la distancia de Mahalanobis correspondiente. En el caso general, calcularemos la distancia de Mahalanobis específica de la clase con respecto a la media específica de la clase y elegiremos la clase para la que este valor sea menor.

0 votos

¿Cuál es la ventaja de usar PPCA aquí, en lugar de usar medios de clase? $\boldsymbol \mu_i$ y las covarianzas intraclase $\mathbf C_i$ ¿directamente?

0 votos

¿Puede citar un artículo que utilice este método?

0 votos

@amoeba, PPCA es una generalización de PCA. No hay ninguna ventaja general, aparte de hacerlo probabilístico y permitir así el enfoque del modelo generativo. Utilizando el $\mu_i$ y $C_i$ directamente está bien, pero añadir $\sigma_i^2$ puede ayudar a representar mejor tus datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X