Siempre se puede aplicar los algoritmos para cualquier conjuntos de datos. Usted también puede pre-blanquear o caída de las columnas que causa la colinealidad) de
su matriz de datos. La pregunta, de la OMI, por lo tanto no se si estos algoritmos pueden ser calculadas en (casi) colineales datos de las matrices de $\pmb X$, pero si las estimaciones que se obtengan de estos algoritmos de clustering se ven afectados por la estructura de covarianza de los datos.
(El argumento de abajo puede ser modificado ligeramente para que también cuenta para el soft algoritmos de clustering, pero que iba a hacer la explicación más complejo porque se requiere la introducción de una función peso, así que para simplificar voy a seguir duro algoritmos de clustering.)
Dado $\pmb X$ $n$ $p$ conjunto de datos con las filas $\{\pmb x_i\}_{i=1}^n$, un duro algoritmo de clustering se da cuenta de una partición de $\{1:n\}$ a $J>1$ no la superposición de subconjuntos $\{C_j\}_{j=1}^J$.
Considerar los resultados de dicha partición. El argumento por debajo de las estimaciones derivadas de las particiones $\{C_j\}_{j=1}^J$ (véase el documento vinculado a continuación), pero para simplificar voy a mantener el enfoque en la estimación de los clúster de centros de $\{\pmb t(\pmb X,C_j)\}_{j=1}^J$: cada una de las $\pmb t(\pmb X,C_j)$ $p$- vector y da una estimación para el clúster correspondiente. Por ejemplo, $\pmb t(\pmb X,C_j)$ podría estar dentro de la media de clústeres:
$$\pmb t(\pmb X,C_j)=\mbox{ave}_{i\in C_j} \pmb x_i$$
Una ubicación estimador $\pmb t(\pmb X,C_j)$ para el que se sostiene que:
$$(1)\quad \pmb t(\pmb A\pmb X,C_j)=\pmb A \pmb t(\pmb X,C_j)$$
para cualquier no singular $p$ $p$ matriz $\pmb A$ dijo ser afín equivariant.
Desde un punto de vista estadístico, afín equivariant ubicación estimaciones no están afectados por la estructura de covarianza de la matriz de datos $\pmb X$. Esto es porque cuando una no singular transformación se aplica a los datos, estas estimaciones se transforma como el de datos. Por lo tanto, que el rendimiento estadísticamente equivalente estimaciones si se corrió en $\pmb X$ o en un blanqueado copia de $\pmb X$. Esta definición puede ser extendida también a sostener incluso si algunas de las columnas de a $\pmb X$ son casi colineales (una relacionada con, pero más fuerte propiedad denominada ajuste exacto asegura que las estimaciones de localización también se transforman como los datos al $\pmb X$ contiene exactamente colineales columnas o al $\pmb A$ es singular).
Mi entendimiento es que el OP es esencialmente pidiendo (como mínimo) para la agrupación de los métodos que producen afín equivariant estimaciones (desde un punto de vista estadístico, estas estimaciones no se vería afectada por la estructura de covarianza de los datos). El máximo, el OP está pidiendo métodos de agrupamiento que producen estimaciones tener el ajuste exacto de la propiedad.
Un conocido resultado [0] (ungated copia) es que $(1)$ (y el ajuste exacto de la propiedad) sólo se aplica si $\#\{C_j\}/n>1/2$. Esta condición excluye todos los métodos de agrupamiento como se define en la introducción a esta respuesta.
- (0) H. P. Lopuhaa y P. J. Rousseeuw (1991). Desglose Puntos de Afín Equivariant Estimadores Multivariante de la Ubicación y de las Matrices de Covarianza. Ann. Estatismo. Volumen 19, Número 1, 229-248.