7 votos

Derivación de la distancia en dos etapas de clustering

Estoy trabajando con los dos pasos en el proceso de cluster en SPSS Modeler (Clementine), y tratando de conseguir un sentido de la función de distancia utilizada. Se trata de una función de verosimilitud logarítmica (como se indica en google docs), pero no estoy seguro de que incluso para las variables continuas (los controladores de función continua y variable nominal) cómo este es un registro de probabilidad (lo que falta es que la mayoría de los elementos de una Gaussiana). Abajo es una captura de pantalla de la documentación que describe la fórmula de la distancia.

Alguien ha visto a la derivación de esta función de distancia?

enter image description here

2voto

Alan LaMielle Puntos 53

SPSS dos pasos en el modelo de clúster algoritmo se describe en más detalle en:

Chiu, Tom, DongPing Fang, John Chen, Yao Wang, y Christopher Jeris (2001), "Una robusta y escalable algoritmo de clústeres de tipo mixto atributos en un gran ambiente de base de datos", Actas del séptimo ACM SIGKDD conferencia internacional sobre el descubrimiento del Conocimiento minería de datos y KDD '01.

Más generalmente, si usted mira el modelo de clustering basado en la literatura y el latente clase de literatura que usted debe tener una comprensión de cómo y continua de las variables nominales entrar en la probabilidad. Las diversas documentaciones para Latente de Oro son bastante útiles y disponibles en la web.

La mayoría de la literatura publicada utiliza un modelo ligeramente diferente a la que en el programa SPSS. La diferencia se relaciona con el tratamiento de los tamaños de las clases (los priores). El SPSS modificación, que es una simplificación, parece estar dirigido a reducir los costes informáticos (en lugar de incrementar el rigor).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X