Así, usted tiene una mezcla de categórico lógicos y numéricos de las variables continuas. Desea agrupar las variables (no los datos de los casos) con base en su similitud.
Un coeficiente de correlación podría ser asumido la medida de similitud. Podríamos, por ejemplo, calcular Pearson $r$. Dado que booleano true/false
es convertible en 1/0
valores binarios, $r$ es computable. $r \text {(numeric,numeric)}$ es un clásico $r$; $r \text {(binary,binary)}$ es el punto-punto de $r$ o Phi coeficiente de; $r \text {(numeric,binary)}$ es el punto-biserial $r$. Todos estos son hypostasized Pearsonian de correlación.
Usted puede ir directo y hacer el análisis de cluster basado en los tres tipos de correlación de los valores recogidos en una matriz. Usted puede hacerlo si usted ve el booleano/datos binarios como profundamente dicotómica, donde no subyacente continua variable es concebible en el fondo.
Pero, a continuación, algunos críticos se pueden tomar una postura a decir que no hay ningún teórico (filosófico) de manera de comparar la similitud entre categórica cuenta con una similitud entre las características de escala. Que ver sugiero que, a continuación, a dividir sus variables continuas - de alguna manera, y se olvidan de que ellos estaban escala antes. Así que todos los datos son binarios y que están bien.
Mientras que si usted decide aceptar la idea subyacente de variable continua, a continuación, utilizando el mencionado inicial de la matriz de correlación directamente en el análisis de stambles en contra de otro problema. El problema es que - debido al hecho de que un manifiesto variable binaria (es decir, dividido en dos subyacente) está a sólo 2 valores, sino un continuo de manifiesto la variable de muchos valores - las magnitudes de los tres coeficientes es arriesgado comparar directamente. Véase, por ejemplo, 2º párrafo aquí. En definitiva, incluyendo los coeficientes de la variable binaria son mayores, sensato el punto de corte adoptado en el hipotético dichotomization de su subyacente precursor de la variable. Una salida sería la de tratar de "restaurar" (inferir) los valores de correlación que "existía" antes de dichotomizations. Esto significa que el cálculo de correlaciones tetracóricas en lugar de punto a punto $r$s y biserial correlaciones en lugar de punto-biserial $r$s. Si es necesario, la totalidad de la matriz podría ser entonces "suavizada" hacia positivo-definitness.
Otro enfoque (no es incuestionable, como cualquier es) podría ser la de cambiar la escala de las correlaciones en sus empíricamente accesible rango en los datos proporcionados. Este truco es, por así decirlo, atheoretical, puede o no puede implicar la existencia de continua subyacente variable dicotómica. La idea es simplemente para quitarle el efecto de cualquier desviación de las variables de' distribuciones marginales en los coeficientes. $r_{rescaled}=r/r_{max}$; por ejemplo, si la observó $r$ $.4$ y el máximo valor posible para estas dos variables es $.95$ (que se obtiene después de la clasificación de sus datos tanto ascendingly), a continuación, el reescalado valor es $.42$. La matriz completa podría ser llamada "suavizada" en p.s.d. en la final.
Una aproximación alternativa a la anterior (quitando el efecto marginal) podría ser para calcular las correlaciones no paramétricas en lugar de $r$ - tales como la clasificación basada en el rho de Spearman o de Kendall tau. También es una opción. Y a partir de este punto comenzamos a la vista, lógicamente, después de haber hecho un círculo, la opción adicional de dichotomizing las variables de escala (en lugar de su clasificación) - a partir de lo que hemos iniciado la discusión.
Después de calcular las correlaciones (o le gustaría que otras medidas de similitud?) usted tendrá que decidir sobre el método de agrupación - por ejemplo uno de los métodos jerárquicos. Pero aquí comienza otra historia. También puede ser que desee utilizar un análisis factorial en lugar de un análisis de Cluster: a pesar de que el análisis factorial no es agrupación, pero en lugar de variables latentes técnica, se da "clusters", en algún sentido.