9 votos

¿Debe aplicarse k-means sólo si las variables están distribuidas normalmente?

Tengo un conjunto de datos complejos con varias características, algunas de las cuales no se distribuyen normalmente (por ejemplo, están muy sesgadas hacia la izquierda). ¿Es realmente aconsejable hacer que estas variables se distribuyan normalmente (gaussianas) antes de aplicar el clustering de k-means para obtener clusters más razonables?

Si no, ¿por qué?

4 votos

Puedes hacer k-medians si los datos están muy sesgados

5voto

boredrandom Puntos 53

El algoritmo k-means minimiza la siguiente función objetivo

$\displaystyle\sum_{i=1}^n\left\|x_i-\mu_i\right\|^2=\sum_{i=1}^n\sum_{j=1}^p\left(x_i^{(j)}-\mu_i^{(j)}\right)^2=\sum_{j=1}^p\sum_{i=1}^n\left(x_i^{(j)}-\mu_i^{(j)}\right)^2$

donde $\mu_i$ es la media del conglomerado asociado a la observación $i$ y $x_i^{(j)}$ denota el $j$ coordenada de observación $x_i$ . Obsérvese que se trata de una especie de generalización de la varianza.

La última suma puede expresarse como una estimación de la varianza de cada uno de los conglomerados con respecto a cada una de las variables.

Por lo tanto, estandarizar las variables para que tengan la misma varianza es importante porque significa que se ponderan igualmente entre sí. Es razonable ponderar las variables de la misma manera si no hay ninguna razón para pensar que una es más importante que las otras.

Nótese que eso no tiene nada que ver con que las variables pertenezcan a alguna distribución conocida, como la normal.

Obsérvese además que el algoritmo más popular para k-means (el algoritmo de Lloyd) siempre da pasos que disminuyen la varianza. Por lo tanto, siempre se obtendrá un óptimo local en un número finito de pasos. Siempre es aconsejable ejecutar el algoritmo varias veces para asegurarse de que está cerca del óptimo global.

La respuesta completa a su pregunta depende del término "razonable". Dado que he explicado que obtendrás una respuesta y que ésta puede depender de las variables, una pregunta que podrías hacerte es si esa respuesta es estable.

En efecto, la solución podría ser más estable con variables de distribución gaussiana porque la varianza es sensible a los valores atípicos. Por lo tanto, los valores atípicos podrían determinar las soluciones a las que se llega. Por ejemplo, considere un solo valor atípico: si es lo suficientemente grande podría obligar a asignarle un centro para reducir su contribución a la función objetivo.

4voto

DJohnson Puntos 1347

Sería de gran ayuda que nos diera información sobre la magnitud del ruido o la sobredispersión en estas características. Esto puede ser tan sencillo como proporcionar las medias, medianas y desviaciones estándar en un formato tabular.

Mi experiencia es que K-means, al igual que muchos métodos tradicionales, es bastante robusto a las violaciones de la normalidad cuando la magnitud del ruido no es grande . En este sentido, K-means difiere significativamente de, por ejemplo, los supuestos de regresión OLS de que los errores se distribuyan normalmente (no las entradas). K-means no tiene supuestos similares. De hecho, y en su mayor parte, suposiciones wrt K-means son reglas empíricas, convenciones y heurísticas que varían de una disciplina a otra, además de variar en función de las decisiones altamente subjetivas tomadas por el analista. Para usted, esto significa que no existe ningún "libro de reglas" en relación con K-means que estipule lo que usted, el analista, debe o no debe hacer para llegar a una solución. Esto sugiere limitaciones adicionales de K-means:

  • No se recomienda su uso con información longitudinal (series temporales)

  • Las soluciones son sensibles a la dependencia entre características

  • El número de conglomerados debe especificarse previamente y, dado ese número, K-means siempre encuentra una solución. Esta solución puede o no representar con exactitud el comportamiento de los datos

  • Las soluciones son siempre esféricas alrededor de los centroides de los grupos. Si los conglomerados "reales" de los datos tienen una forma diferente, K-means no captará un patrón distinto al esférico

  • No devuelve resultados razonables con características no continuas o mezclas de información continua y discreta

  • Si las semillas utilizadas para formar los conglomerados se crean automáticamente a partir de extracciones de datos aleatorias, los valores extremos de las características pueden causar escasez y distorsión no representativa en los resultados

Como señala aksakal, k-medians es una solución al problema que has planteado. Suponiendo que esa rutina esté disponible, sus resultados deberían compararse con las soluciones que utilizan k-means.

En cuanto a las reglas generales, una receta común en marketing es, en primer lugar, estandarizar las características con una media de 0 y una desviación estándar de 1 y, en segundo lugar, reducir la dimensionalidad de los datos mediante PCA (o métodos similares). En parte, esto ayuda a mitigar la dependencia de las características. Esto también suaviza los "bultos" que pueden resultar del uso de la matriz completa o no reducida de características. Por último, y para sus fines, la reducción de la dimensión también podría ayudar a mitigar el impacto de la información extrema o excesivamente dispersa. Estos métodos de preagrupación y reducción de dimensiones me han resultado útiles, siempre que funcionan, que es la mayoría de las veces.

Sin embargo, ¿qué se hace en el caso de grande ¿ruido de magnitud? Para facilitar una comprensión más profunda de las cuestiones que plantea, el documento de Xie y Xing Análisis de componentes principales de Cauchy (sin fecha aquí ... http://www.cs.cmu.edu/~pengtaox/papers/cpca.pdf ) presenta una tipología de matrices de datos en función de la dispersión y el ruido. A pesar de centrarse en el PCA, su discusión es informativa, ya que puede generalizarse a K-means.

Si la discusión de Xie y Xing es demasiado técnica, hay muchas transformaciones más simples que pueden aplicarse a las características extremas. Para las características de valor positivo, la transformación logarítmica natural comprime las colas pesadas. Otras posibilidades son la transformación Box-Cox, el seno hiperbólico inverso, la transformación de Lambert W y así sucesivamente. Las fórmulas para todo esto se pueden obtener fácilmente en línea.

La conclusión es que no hay una respuesta única a tu pregunta.

0 votos

Buena explicación

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X