10 votos

¿Cómo puedo saber que no hay un patrón en el PCA resultados?

Tengo más de 1000 muestras del conjunto de datos, de 19 de variables. Mi objetivo es predecir una variable binaria basada en los otros 18 variables (binario y continua). Estoy bastante seguro de que 6 de la predicción de variables asociadas con la respuesta binaria, sin embargo, me gustaría analizar más a fondo el conjunto de datos y busque otras asociaciones o estructuras que podría faltar. En orden a ello, me decidí a usar el PCA y la agrupación.

Cuando se ejecuta el PCA en la normalizado de datos, resulta que 11 de los componentes debe mantenerse con el fin de retener el 85% de la varianza. enter image description here Por el trazado de la pairplots me sale esto: enter image description here

No estoy seguro de que en lo que viene... no veo a ningún patrón significativo en el pca y me pregunto qué significa esto y si podría haber sido causado por el hecho de que algunas de las variables son binarias. Mediante la ejecución de un algoritmo de clustering con 6 categorías, me da el siguiente resultado, que no es exactamente una mejoría aunque algunas gotas parecen destacan (los amarillos). enter image description here

Como usted probablemente puede decir, yo no soy un experto en PCA, pero vi algunos tutoriales y cómo puede ser poderosa para obtener una visión de las estructuras de grandes dimensiones en el espacio. Con el famoso MNIST dígitos (o el IRIS) conjunto de datos que funciona muy bien. Mi pregunta es: ¿qué debo hacer ahora para tener más sentido de la PCA? La agrupación no parece recoger algo útil, ¿cómo puedo yo decir que no hay un patrón en la PCA o ¿qué debo hacer a continuación para encontrar patrones en la PCA de datos?

7voto

Aksakal Puntos 11351

Se explica la varianza de la trama me dice que la PCA es inútil aquí. 11/18 es de 61%, por lo que necesita el 61% de las variables para explicar el 85% de la varianza. Que no es el caso de PCA, en mi opinión. Yo uso PCA cuando 3-5 factores, de 18 de explicar el 95% de la varianza.

ACTUALIZACIÓN: Mire el diagrama de acumulado por ciento de la varianza explicada por el número de PCs. Esto es a partir de la tasa de interés plazo de la estructura de modelado de campo. A ver cómo 3 componentes explican más del 99% de la varianza total. Esto puede verse como un ejemplo para la PCA de la publicidad :) sin Embargo, esto es una cosa real. La tasa de interés de los tenores son mucho correlación, que es la razón por la PCA es muy natural en esta aplicación. En lugar de lidiar con un par de docenas de tenores, tiene que tratar con sólo 3 componentes.

enter image description here

5voto

Silvercode Puntos 438

Si usted tiene $N>1000$ de muestras y sólo $p=19$ predictores sería bastante razonable utilizar todos los predictores en el modelo. En ese caso un PCA paso bien puede ser innecesario.

Si está seguro de que sólo un subconjunto de las variables son muy explicativo, con una escasa modelo de regresión, por ejemplo, una Red Elástica, podría ayudar a establecer este.

También, la interpretación de la PCA de resultados utilizando el tipo mixto de entradas (binario vs real, a diferentes escalas, etc, ver CV pregunta aquí) no es tan sencillo, y puede que desee evitar a menos que exista una razón clara para ello.

4voto

kdbanman Puntos 146

Voy a interpretar su pregunta tan sucintamente como puedo. Déjeme saber si cambia su significado.

Estoy bastante seguro de que 6 de la predicción de variables asociadas con la respuesta binaria [pero] no veo a ningún patrón significativo en el pca

Yo no veo ninguna "significativo patrón", distinta de la consistencia en su pairplots. Todos son sólo aproximadamente circular de blobs. Tengo curiosidad por lo que esperaba ver. Separar claramente el punto de clústeres de algunos de los pairplots? Un par de parcelas muy cerca lineal?

Su PCA en los resultados de la bloblike pairplots y sólo el 85% de la varianza capturada en el top 11 de componentes principales - no excluye su intuición acerca de 6 variables que ser suficiente para respuesta binaria de predicción.

Imagino que estas situaciones:

  1. Dicen que su PCA resultados muestran que el 99% de la varianza es capturado por 6 componentes principales.

    Que podría parecer a apoyar a su intuición acerca de 6 variables predictoras - tal vez se podría definir un plano o alguna otra superficie en la que 6 de espacio tridimensional que clasifica los puntos muy bien, y usted podría utilizar la superficie de un binario como predictor. Lo que me lleva a número 2...

  2. Digan su top 6 de componentes principales han pairplots que este aspecto

    "Pattern" in pairplots.

    Pero vamos código de color arbitrario de respuesta binaria

    "Pattern" is useless.

    Aunque se logró la captura de casi todos (99%) de la varianza en 6 variables, usted todavía no está garantizado para tener separación espacial para predecir su respuesta binaria.

En realidad, puede necesitar varios umbrales numéricos (que podría explicarse como superficies en que 6 dimensiones del espacio), y un punto de pertenencia a su clasificación binaria puede depender de una compleja expresión condicional hecho de que el punto de la relación de cada uno de los umbrales. Pero eso es sólo un ejemplo de cómo un binario de la clase podrían ser predichos. Hay un montón de estructuras de datos y métodos para la representación de entrenamiento y predicción. Este es un teaser. A la cita,

A menudo la parte más difícil de solucionar de una máquina de problema de aprendizaje puede encontrar el estimador para el trabajo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X