5 votos

La agrupación utilizando el algoritmo pam en R

Estoy usando la pam() R la función para realizar la agrupación. Hasta donde yo sé, el pamk() función actúa como un contenedor para pam(), y se evalúa el número óptimo de clusters. Sin embargo, utilizando los mismos datos y parámetros que los resultados son diferentes.

Por ejemplo, llamar a pamk() y pam() como sigue devuelve 2 grupos con diferentes medoids valores:

pk <- pamk(dist, krange=2:10, criterion="ch", usepam=TRUE, diss=TRUE)

pk.2 <- pam(dist,2,diss=TRUE)

¿Cómo puede ser?

Gracias, Anat

3voto

pkaeding Puntos 12935

En primer lugar, si usted está utilizando las funciones de un paquete, por favor menciónelo en su pregunta (en este caso, pamkestá en el paquete fpc). Esto hará que sea más fácil para la gente para ayudar a usted.

Segundo, también ayuda si usted proporciona un reproducible ejemplo (que es, nos dan los datos, o parte de ella, que le da su problema).

Ahora, en cuanto a tu problema. Si la lista de la fuente de la pamk, (hacer esto escribiendo el nombre de la función, sin corchetes, en el R símbolo del sistema y presione entrar), vas a ver que en efecto se ejecuta pam para el conjunto de la k valores y, a continuación, elige el mejor uno basado en su criterio de elección.

Lo que no hacen, sin embargo, se ejecuta el algoritmo varias veces por el mismo k y comprobar la estabilidad de la medioids: el pam algoritmo no es completamente determinista, y puede depender de la inicial (normalmente se determina al azar) puntos de partida. De hecho, si usted ejecute pam varias veces en sus datos, con el mismo k, yo esperaría (en su caso) para ver los diferentes resultados.

Normalmente, esto es una indicación de que los grupos no son bien definidos en su base de datos (o al menos no en una forma que puede ser recogido por pam). Es probable que, si se incluye a 1 en su krange, esto daría el mejor resultado: el mejor 'partición' es ninguna partición.

Conclusión: si usted recibe este tipo de resultado de pam, no confiar en él!

Descargo de responsabilidad: ya que no puedo ver tus datos, y no a hablar de cómo la 2 los resultados son diferentes, yo soy una especie de adivinar cuál es el problema, aquí. Si el problema es realmente de que el valor de retorno de pamk es una lista, de la que el elemento pamobject es realmente el pam objeto (imagino que), el de arriba es cierto, pero menos importantes para usted (por ahora).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X