Processing math: 100%

1 votos

Clasificación de dígitos manuscritos mediante PCA

Clasificar dígitos escritos a mano utilizando PCA. Utilice 200 dígitos para la fase de entrenamiento y 20 para la prueba.

No tengo ni idea de cómo funciona el PCA como método de clasificación. He aprendido a utilizarlo como un método de reducción de dimensión en el que restamos los datos originales de su media, y luego calculamos la matriz de covarianza, los valores propios y los vectores propios. A partir de ahí, podemos elegir los componentes principales e ignorar el resto. ¿Cómo debo clasificar un grupo de dígitos escritos a mano? ¿Cómo distinguir los datos de diferentes clases? ¿O significa algo totalmente diferente, que debo utilizar PCA para la extracción de características y utilizar un método de clasificación después?

2voto

jpmuc Puntos 4817

El PCA le proporciona las direcciones en el espacio de características a lo largo de las cuales la varianza de los datos es máxima, es decir, que contienen la mayor parte de la información sobre sus datos (si se supone que tienen una distribución gaussiana).

Otra forma de verlo, y la que mejor se aplica aquí, es verlos como los vectores que te dan la mejor reconstrucción de tu cita en términos de distancia euclidiana. Hay varias formas de derivarlo. Hay muchos libros y tutoriales donde puedes encontrar esas derivaciones. Te recomiendo que leas este .

Lo que hay que hacer es calcular el primer k componentes para cada una de las clases de personajes. Cuando se presenta una nueva muestra, se calcula la proyección de esa muestra sobre cada uno de los componentes principales (PC) de cada clase, y se toma como clase resultante la que da la mayor proyección, es decir, aquella a la que la muestra se acerca más.

Por último, pero no menos importante, el PCA se emplea más bien como procedimiento de reducción de la dimensionalidad que como clasificador. Para eso hay enfoques mucho mejores. Mezcla de PCAs probabilísticos, SVMs, y mucho más.

2voto

Harry Puntos 53

Debería utilizar el PCA para la selección de características antes de aplicar un clasificador. Este uso del PCA en la clasificación se ha hecho común desde que un 1991 papel sobre la clasificación de rostros mediante "eigenfaces". El procedimiento es básicamente:

  1. Seleccione k dimensiones ortogonales de máxima variación (dadas por el vectores propios de la matriz de covarianza) para todos los datos juntos (después de la normalización).
  2. Proyecte todos los puntos de datos (de entrenamiento y de prueba) en estas k dimensiones para obtener vectores de características k-dimensionales.
  3. Aprenda y clasifique los vectores de características k-dimensionales utilizando su método de clasificación favorito.

El papel del PCA en este esquema es reducir la complejidad de los datos que se manejan en la etapa de clasificación y, por lo tanto, quizás permitir que los clasificadores sean más fuertes. Un caso de fracaso para este esquema es cuando hay una gran variación intraclase en direcciones ortogonales a la variación interclase, y por tanto se pierden las direcciones interclase. Sin embargo, en la práctica, el esquema se utiliza con mucha frecuencia y se ha comprobado que es exitoso para una variedad de problemas.

1voto

karatchov Puntos 230

Conozco una forma, puede haber otras.

La formulación probabilística de PCA, pPCA, es en realidad un modelo de densidad: permite estimar p(x) . Así, en un enfoque generativo se puede obtener una distribución predictiva mediante la regla de Bayes: p(c|x)p(x|c)p(c) . Así, se puede hacer un PCA para cada dígito escrito a mano. Para un nuevo dígito, elija la clase para la que el error de reconstrucción del PCA correspondiente (que es proporcional a la probabilidad) sea menor.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X