Tengo más de 1000 muestras del conjunto de datos, de 19 de variables. Mi objetivo es predecir una variable binaria basada en los otros 18 variables (binario y continua). Estoy bastante seguro de que 6 de la predicción de variables asociadas con la respuesta binaria, sin embargo, me gustaría analizar más a fondo el conjunto de datos y busque otras asociaciones o estructuras que podría faltar. En orden a ello, me decidí a usar el PCA y la agrupación.
Cuando se ejecuta el PCA en la normalizado de datos, resulta que 11 de los componentes debe mantenerse con el fin de retener el 85% de la varianza. Por el trazado de la pairplots me sale esto:
No estoy seguro de que en lo que viene... no veo a ningún patrón significativo en el pca y me pregunto qué significa esto y si podría haber sido causado por el hecho de que algunas de las variables son binarias. Mediante la ejecución de un algoritmo de clustering con 6 categorías, me da el siguiente resultado, que no es exactamente una mejoría aunque algunas gotas parecen destacan (los amarillos).
Como usted probablemente puede decir, yo no soy un experto en PCA, pero vi algunos tutoriales y cómo puede ser poderosa para obtener una visión de las estructuras de grandes dimensiones en el espacio. Con el famoso MNIST dígitos (o el IRIS) conjunto de datos que funciona muy bien. Mi pregunta es: ¿qué debo hacer ahora para tener más sentido de la PCA? La agrupación no parece recoger algo útil, ¿cómo puedo yo decir que no hay un patrón en la PCA o ¿qué debo hacer a continuación para encontrar patrones en la PCA de datos?