4 votos

Puede ejecutar algoritmos de clustering perfectamente colineales de datos?

Digamos que tengo el conjunto de datos $x_i,y_i,z_i$ donde $z_i=y_i-x_i$ o $z_i=f(x_i,y_i)$.

Puedo ejecutar algoritmos de clustering en este conjunto de datos? Quería añadir que no-lineal o combinaciones lineales de las variables, ya que puede haber información que es útil para la agrupación. No estoy seguro de que los algoritmos de clustering puede detectar estas relaciones a sí mismos.

Como un caso extremo, quiero considerar una perfecta colinealidad. Si estos algos se puede aplicar perfectamente colineales de datos, a continuación, que sin duda puede ser aplicado a las relaciones no lineales.

Hay una pregunta similar en el k-means clustering, pero no es satisfactoria por dos razones. Se trata de k-means específicamente, y mi pregunta es más general de la agrupación. La segunda, es que no haya aceptado la respuesta, porque la respuesta no es completa.

1voto

Patrick Puntos 183

Siempre se puede aplicar los algoritmos para cualquier conjuntos de datos. Usted también puede pre-blanquear o caída de las columnas que causa la colinealidad) de su matriz de datos. La pregunta, de la OMI, por lo tanto no se si estos algoritmos pueden ser calculadas en (casi) colineales datos de las matrices de $\pmb X$, pero si las estimaciones que se obtengan de estos algoritmos de clustering se ven afectados por la estructura de covarianza de los datos.


(El argumento de abajo puede ser modificado ligeramente para que también cuenta para el soft algoritmos de clustering, pero que iba a hacer la explicación más complejo porque se requiere la introducción de una función peso, así que para simplificar voy a seguir duro algoritmos de clustering.)

Dado $\pmb X$ $n$ $p$ conjunto de datos con las filas $\{\pmb x_i\}_{i=1}^n$, un duro algoritmo de clustering se da cuenta de una partición de $\{1:n\}$ a $J>1$ no la superposición de subconjuntos $\{C_j\}_{j=1}^J$.

Considerar los resultados de dicha partición. El argumento por debajo de las estimaciones derivadas de las particiones $\{C_j\}_{j=1}^J$ (véase el documento vinculado a continuación), pero para simplificar voy a mantener el enfoque en la estimación de los clúster de centros de $\{\pmb t(\pmb X,C_j)\}_{j=1}^J$: cada una de las $\pmb t(\pmb X,C_j)$ $p$- vector y da una estimación para el clúster correspondiente. Por ejemplo, $\pmb t(\pmb X,C_j)$ podría estar dentro de la media de clústeres:

$$\pmb t(\pmb X,C_j)=\mbox{ave}_{i\in C_j} \pmb x_i$$


Una ubicación estimador $\pmb t(\pmb X,C_j)$ para el que se sostiene que:

$$(1)\quad \pmb t(\pmb A\pmb X,C_j)=\pmb A \pmb t(\pmb X,C_j)$$ para cualquier no singular $p$ $p$ matriz $\pmb A$ dijo ser afín equivariant.

Desde un punto de vista estadístico, afín equivariant ubicación estimaciones no están afectados por la estructura de covarianza de la matriz de datos $\pmb X$. Esto es porque cuando una no singular transformación se aplica a los datos, estas estimaciones se transforma como el de datos. Por lo tanto, que el rendimiento estadísticamente equivalente estimaciones si se corrió en $\pmb X$ o en un blanqueado copia de $\pmb X$. Esta definición puede ser extendida también a sostener incluso si algunas de las columnas de a $\pmb X$ son casi colineales (una relacionada con, pero más fuerte propiedad denominada ajuste exacto asegura que las estimaciones de localización también se transforman como los datos al $\pmb X$ contiene exactamente colineales columnas o al $\pmb A$ es singular).


Mi entendimiento es que el OP es esencialmente pidiendo (como mínimo) para la agrupación de los métodos que producen afín equivariant estimaciones (desde un punto de vista estadístico, estas estimaciones no se vería afectada por la estructura de covarianza de los datos). El máximo, el OP está pidiendo métodos de agrupamiento que producen estimaciones tener el ajuste exacto de la propiedad.

Un conocido resultado [0] (ungated copia) es que $(1)$ (y el ajuste exacto de la propiedad) sólo se aplica si $\#\{C_j\}/n>1/2$. Esta condición excluye todos los métodos de agrupamiento como se define en la introducción a esta respuesta.


  • (0) H. P. Lopuhaa y P. J. Rousseeuw (1991). Desglose Puntos de Afín Equivariant Estimadores Multivariante de la Ubicación y de las Matrices de Covarianza. Ann. Estatismo. Volumen 19, Número 1, 229-248.

1voto

AusTravel Puntos 6

Los siguientes no es un intento de respuesta de manera integral su interesante (+1) pregunta, pero en lugar de almacenar y compartir con usted y los demás relevante, en mi opinión, los papeles:

0voto

Amadiere Puntos 5606

Si usted puede definir una buena función de distancia, la distancia de los algoritmos basados en funcionarán igual de bien en los datos transformados.

Si su preprocesamiento no era bueno, entonces los resultados son más propensas a sufrir aún más.

Además, usted será mordido por la maldición de la dimensionalidad de la anterior. Las características más que agregar, más aún la distancia relativa get - todo es similar/disssimilar de la misma manera.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X