57 votos

¿PCA trabajo para tipos de datos boolean (binarios)?

Quiero reducir la dimensionalidad de orden superior y sistemas de captura de la mayoría de la covarianza en un preferiblemente de 2 dimensiones o 1 dimensiones de campo. Entiendo que esto puede ser realizado a través del análisis de componentes principales, y he utilizado PCA en muchos escenarios. Sin embargo, nunca lo he usado con tipos de datos boolean, y me preguntaba si es significativo para hacer PCA con este conjunto. Así, por ejemplo, pretender que yo cualitativos o descriptivos de la métrica, y le asigna un "1", si la métrica es válido para esa dimensión, y un "0" si no lo está (datos binarios). Así por ejemplo, imagine que usted está tratando de comparar a los Siete Enanitos de Blanca nieves. Tenemos:

Doc, Tonto, Tímido, de mal humor, Estornudos, Sueño y Feliz, y desea organizar ellos basados en cualidades, y lo hizo como es:

$$\begin{pmatrix} & Lactose\ Intolerant & A \ Honor\ Roll & Athletic & Wealthy \\ Doc & 1 & 0 & 1 & 1 \\ Dopey & 0 & 0 & 0 & 0 \\ Bashful & 1 & 0 & 1 & 1 \\ Grumpy & 1 & 1 & 1 & 1 \\ Sneezy & 0 & 1 & 1 & 0 \\ Sleepy & 1 & 0 & 0 & 0 \\ Happy & 1 & 1 & 0 & 0 \end{pmatrix}$$

Así, por ejemplo Vergonzoso es intolerante a la lactosa y no en Un lugar de honor. Esto es puramente hipotética de la matriz, y mi verdadera matriz tendrá muchas más descriptivo columnas. Mi pregunta es, ¿seguiría siendo apropiado para hacer PCA en esta matriz como un medio para encontrar la similitud entre los individuos?

18voto

Valentin Kantor Puntos 176

Me gustaría sugerir una relativamente reciente de la técnica para la detección automática de la estructura de la extracción de la variable categórica de datos (esto incluye binario). El método se llama CorEx de Greg van Steeg de la Universidad de California. La idea es utilizar la noción de Correlación Total basado en la entropía medidas. Es atractiva, debido a su simplicidad y no de optimización de gran número de hyperparameters.

El papel sobre jerárquica de las representaciones (la más reciente, se basa en la parte superior de las medidas anteriores). http://arxiv.org/pdf/1410.7404.pdf

17voto

ebricca Puntos 31

También puede utilizar el Análisis de Correspondencias Múltiple (ACM), que es una extensión del análisis de componentes principales cuando las variables a ser analizadas son categóricos en lugar de cuantitativo (que es el caso aquí con sus variables binarias). Véase, por ejemplo, Husson et al. (2010), o Abdi y Valentin (2007). Un excelente paquete de R para realizar MCA (y la agrupación jerárquica en Pc) es FactoMineR.

13voto

Ankur Loriya Puntos 160

Si usted piensa de PCA como una técnica exploratoria para darle una forma de visualizar las relaciones entre las variables (y en mi opinión esta es la única manera de pensar acerca de ella), entonces sí, no hay ninguna razón por qué usted no puede poner en variables binarias. Por ejemplo, aquí es un diagrama de dispersión biespacial de sus datos

enter image description here

Parece razonablemente útil. Por ejemplo, usted puede ver que el Doc y Tímidos son muy similares; que la HR es más bien a diferencia de las otras tres variables; Sueño y Estornudos son muy disímiles, etc.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X