Derivación de la distancia en dos etapas de clustering

Question

Derivación de la distancia en dos etapas de clustering

Preguntado el 3 de Marzo, 2011: Cuando se hizo la pregunta
725 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Estoy trabajando con los dos pasos en el proceso de cluster en SPSS Modeler (Clementine), y tratando de conseguir un sentido de la función de distancia utilizada. Se trata de una función de verosimilitud logarítmica (como se indica en google docs), pero no estoy seguro de que incluso para las variables continuas (los controladores de función continua y variable nominal) cómo este es un registro de probabilidad (lo que falta es que la mayoría de los elementos de una Gaussiana). Abajo es una captura de pantalla de la documentación que describe la fórmula de la distancia.

Alguien ha visto a la derivación de esta función de distancia?

enter image description here

Preguntado el 3 de Marzo, 2011 por Psycho Bob

Answer 1

1 Respuestas

Answer 2

2voto

Alan LaMielle Puntos 53

SPSS dos pasos en el modelo de clúster algoritmo se describe en más detalle en:

Chiu, Tom, DongPing Fang, John Chen, Yao Wang, y Christopher Jeris (2001), "Una robusta y escalable algoritmo de clústeres de tipo mixto atributos en un gran ambiente de base de datos", Actas del séptimo ACM SIGKDD conferencia internacional sobre el descubrimiento del Conocimiento minería de datos y KDD '01.

Más generalmente, si usted mira el modelo de clustering basado en la literatura y el latente clase de literatura que usted debe tener una comprensión de cómo y continua de las variables nominales entrar en la probabilidad. Las diversas documentaciones para Latente de Oro son bastante útiles y disponibles en la web.

La mayoría de la literatura publicada utiliza un modelo ligeramente diferente a la que en el programa SPSS. La diferencia se relaciona con el tratamiento de los tamaños de las clases (los priores). El SPSS modificación, que es una simplificación, parece estar dirigido a reducir los costes informáticos (en lugar de incrementar el rigor).

Respondido el 25 de Julio, 2012 por Alan LaMielle (53 Puntos )

Derivación de la distancia en dos etapas de clustering

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Derivación de la distancia en dos etapas de clustering

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: