Sería de gran ayuda que nos diera información sobre la magnitud del ruido o la sobredispersión en estas características. Esto puede ser tan sencillo como proporcionar las medias, medianas y desviaciones estándar en un formato tabular.
Mi experiencia es que K-means, al igual que muchos métodos tradicionales, es bastante robusto a las violaciones de la normalidad cuando la magnitud del ruido no es grande . En este sentido, K-means difiere significativamente de, por ejemplo, los supuestos de regresión OLS de que los errores se distribuyan normalmente (no las entradas). K-means no tiene supuestos similares. De hecho, y en su mayor parte, suposiciones wrt K-means son reglas empíricas, convenciones y heurísticas que varían de una disciplina a otra, además de variar en función de las decisiones altamente subjetivas tomadas por el analista. Para usted, esto significa que no existe ningún "libro de reglas" en relación con K-means que estipule lo que usted, el analista, debe o no debe hacer para llegar a una solución. Esto sugiere limitaciones adicionales de K-means:
-
No se recomienda su uso con información longitudinal (series temporales)
-
Las soluciones son sensibles a la dependencia entre características
-
El número de conglomerados debe especificarse previamente y, dado ese número, K-means siempre encuentra una solución. Esta solución puede o no representar con exactitud el comportamiento de los datos
-
Las soluciones son siempre esféricas alrededor de los centroides de los grupos. Si los conglomerados "reales" de los datos tienen una forma diferente, K-means no captará un patrón distinto al esférico
-
No devuelve resultados razonables con características no continuas o mezclas de información continua y discreta
-
Si las semillas utilizadas para formar los conglomerados se crean automáticamente a partir de extracciones de datos aleatorias, los valores extremos de las características pueden causar escasez y distorsión no representativa en los resultados
Como señala aksakal, k-medians es una solución al problema que has planteado. Suponiendo que esa rutina esté disponible, sus resultados deberían compararse con las soluciones que utilizan k-means.
En cuanto a las reglas generales, una receta común en marketing es, en primer lugar, estandarizar las características con una media de 0 y una desviación estándar de 1 y, en segundo lugar, reducir la dimensionalidad de los datos mediante PCA (o métodos similares). En parte, esto ayuda a mitigar la dependencia de las características. Esto también suaviza los "bultos" que pueden resultar del uso de la matriz completa o no reducida de características. Por último, y para sus fines, la reducción de la dimensión también podría ayudar a mitigar el impacto de la información extrema o excesivamente dispersa. Estos métodos de preagrupación y reducción de dimensiones me han resultado útiles, siempre que funcionan, que es la mayoría de las veces.
Sin embargo, ¿qué se hace en el caso de grande ¿ruido de magnitud? Para facilitar una comprensión más profunda de las cuestiones que plantea, el documento de Xie y Xing Análisis de componentes principales de Cauchy (sin fecha aquí ... http://www.cs.cmu.edu/~pengtaox/papers/cpca.pdf ) presenta una tipología de matrices de datos en función de la dispersión y el ruido. A pesar de centrarse en el PCA, su discusión es informativa, ya que puede generalizarse a K-means.
Si la discusión de Xie y Xing es demasiado técnica, hay muchas transformaciones más simples que pueden aplicarse a las características extremas. Para las características de valor positivo, la transformación logarítmica natural comprime las colas pesadas. Otras posibilidades son la transformación Box-Cox, el seno hiperbólico inverso, la transformación de Lambert W y así sucesivamente. Las fórmulas para todo esto se pueden obtener fácilmente en línea.
La conclusión es que no hay una respuesta única a tu pregunta.
4 votos
Puedes hacer k-medians si los datos están muy sesgados