8 votos

Cómo lidiar con el efecto de la orden de las observaciones no un análisis de cluster jerárquico?

Cuando un no-análisis de cluster jerárquico se lleva a cabo, el orden de las observaciones en el archivo de datos de determinar los resultados de la agrupación, especialmente si el conjunto de datos es pequeño (me.e, 5000 observaciones). Para lidiar con este problema que generalmente se realiza al azar reordenamiento de los datos de las observaciones. Mi problema es que si me replicar el análisis de n veces, los resultados obtenidos son diferentes, y a veces estas diferencias son grandes.

¿Cómo puedo lidiar con este problema? Tal vez yo podría ejecutar el análisis varias veces y después de considerar la posibilidad de que una observación de pertenecer al grupo en el que más veces fue asignado. Tiene alguien una mejor aproximación a este problema?

Manuel Ramón

4voto

doekman Puntos 5187

Una respuesta "correcta" no puede depender de un arbitrario pedido de algún método que está utilizando.

Usted necesita considerar todos los posibles órdenes (o algún representante de la muestra) y la estimación de sus parámetros para cada caso. Esto le dará las distribuciones de los parámetros que están tratando de estimar. La estimación de los "verdaderos" valores de los parámetros de estas distribuciones (esto también le dará una estimación de su estimador de error).

Alternativamente, utilizar un método que no le introducen un orden.

4voto

bentsai Puntos 1886

Lo que estamos descubriendo es un grado de inestabilidad en el algoritmo o de los propios datos. El enfoque denominado 'consenso' o 'conjunto' de la agrupación es una manera de lidiar con el problema. El problema no es: dada una colección de conglomerados, encontrar un "consenso" de la agrupación que, en cierto sentido, el "promedio" de los conglomerados.

Hay un poquito de trabajo sobre este tema, y un buen lugar para comenzar es la agrupación de conjuntos de papel por Strehl y Ghosh.

1voto

Evan M. Puntos 231

Que tv algoritmo de clustering estás usando? También podría darse el caso de que los resultados diferentes, es porque tal vez no de sus datos, pero su algoritmo en sí no es determinista (por ejemplo, utilizando K-means con el azar de la inicialización, o el uso de un modelo basado en la agrupación con EM o MCMC para la inferencia de inicialización aleatorio)?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X