16 votos

Supuestos del análisis de cluster

Disculpas por la rudimentaria pregunta, soy nuevo en esta forma de análisis y tener una comprensión muy limitada de los principios hasta ahora.

Me estaba preguntando si muchos de los supuestos paramétricos para multivariante/univariado de las pruebas se aplican para el análisis de Cluster? Muchas de las fuentes de información que he leído sobre el análisis de cluster no especificar ninguna hipótesis.

Estoy particularmente interesado en el supuesto de independencia de las observaciones. Mi entendimiento es que la violación de este supuesto (en ANOVA y MAVOVA por ejemplo) es grave, ya que influye en las estimaciones de error. A partir de mi lectura hasta ahora, parece que el análisis de cluster es en gran parte una descripción de la técnica (que sólo implica la inferencia estadística en determinados casos). En consecuencia, son suposiciones tales como la independencia y la distribución normal de los datos requeridos?

Las recomendaciones de los textos que hablan de este problema, sería muy apreciado. Muchas Gracias.

25voto

David Cumps Puntos 370

Espacial de análisis de cluster utiliza geográficamente referenciada observaciones y es un subconjunto de un análisis de cluster que no se limita a análisis exploratorio.

Ejemplo 1

Puede ser utilizado para hacer justo distritos electorales.

Ejemplo 2

Locales de autocorrelación espacial medidas se utilizan en la AMEBA método de agrupamiento. Aldstadt y Getis usar el resultante de los clústeres de crear una matriz de ponderaciones espaciales que se pueden especificar en espacial las regresiones para probar una hipótesis.

Ver Aldstadt, Jared y Arthur Getis (2006) "el Uso de la AMEBA al crear una matriz de ponderaciones espaciales e identificar espacial de los grupos." Análisis Geográfico 38(4) 327-343

Ejemplo 3

El análisis de Cluster basado en aleatoriamente regiones de cultivo de un conjunto de criterios podría ser utilizado como un método de probabilidades para indicar la injusticia en el diseño institucional de las zonas, tales como zonas de asistencia escolar o distritos electorales.

17voto

DavLink Puntos 101

Bueno, técnicas de clustering no están limitados a distancia basados en métodos de donde buscamos grupos de unidades estadísticas que son inusualmente cerca el uno del otro, en un sentido geométrico. También hay una serie de técnicas a depender de la densidad (clusters son vistos como "regiones" en el espacio de características) o de distribución de probabilidad.

El último caso se la conoce también como agrupamiento basado en el modelo; psychometricians utilizar el término Latente Análisis de Perfil para denotar este caso específico de Finito Modelo de Mezcla, donde se asume que la población está compuesta de diferentes desapercibida grupos, o clases latentes, y que la densidad conjunta de todas ellas se manifiestan las variables es una mezcla de esta clase-la densidad específica. Buena aplicación están disponibles en la Mclust paquete o Mplus software. Clase diferente-invariante de las matrices de covarianza puede ser utilizado (de hecho, Mclust utiliza el BIC criterio para seleccionar la óptima, mientras que la variación del número de clusters).

El estándar Latente Modelo de Clase también se hace la suposición de que los datos observados provienen de una mezcla de g multivariante de distribuciones multinomiales. Un buen resumen está disponible en el Modelo basado en el análisis de cluster: una Defensa, por Gilles Celeux.

En la medida en que estos métodos se basan en la distribución de la hipótesis, esto también hacer posible el uso de pruebas formales o de bondad de ajuste índices de decidir el número de grupos o clases, que sigue siendo un problema difícil de la distancia basada en el análisis de cluster, pero consulte los siguientes artículos en los que se examinó esta cuestión:

  1. Handl, J., Knowles, J., y Kell, D. B. (2005). Computacional de validación de clúster en post-genómica de análisis de datos. La bioinformática, 21(15), 3201-3212.
  2. Hennig, C. (2007) el grupo de sabios de la evaluación de clúster de estabilidad. La Estadística computacional y Análisis de Datos, 52, 258-271.
  3. Hennig, C. (2008) la Disolución punto de aislamiento y robustez: la solidez de los criterios generales para el clúster de los métodos de análisis. Revista de Análisis Multivariante, 99, 1154-1176.

3voto

curiousguy Puntos 81

Hay una muy amplia variedad de métodos de agrupamiento, que son exploratorio por naturaleza, y no creo que ninguno de ellos, ya sea jerárquica o partición de base, se basa en el tipo de suposiciones que uno tiene que satisfacer para el análisis de la varianza.

Tener un vistazo a la [MV] documentación en Stata para responder a su pregunta, he encontrado este divertido cita en la página 85:

Aunque algunos han dicho que hay muchos clúster-métodos de análisis como hay gente a la realización de un análisis de cluster. Esto es un eufemismo! Existen infinidad de formas de llevar a cabo un análisis de cluster de las personas que las realizan.

En ese contexto, dudo que haya ninguna hipótesis a través de la aplicación de método de agrupación. El resto del texto se establece como regla general que usted necesita alguna forma de "medida de disimilitud", que no tiene por qué ser incluso una métrica de distancia, para crear clústeres.

Hay una excepción, sin embargo, que es cuando la agrupación de las observaciones como parte de un post-estimación de análisis. En Stata, el vce comando viene con la siguiente advertencia, en la página 86 de la misma fuente:

Si usted está familiarizado con el programa Stata gran variedad de estimación de comandos, tener cuidado de distinguir entre el análisis de cluster (el comando cluster) y la vce(clúster clustvar) opción permite con muchos estimación de comandos. El análisis de Cluster encuentra grupos de datos. La vce(clúster clustvar) opción permite con diversas estimación de comandos indica que las observaciones son independientes a través de los grupos definidos por la opción, pero no son necesariamente independientes dentro de esos grupos. Una agrupación de variables producidas por el comando cluster rara vez satisfacen el supuesto detrás del uso de la vce(clúster clustvar) opción.

Basado en eso, supongo que observaciones independientes no están obligados fuera de ese caso en particular. Intuitivamente, me gustaría añadir que el análisis de cluster (incluso podría ser utilizado para el propósito preciso de explorar el grado en que las observaciones son independientes o no.

Voy a terminar de mencionar que, en la página 356 de Estadísticas con el programa Stata, Lawrence Hamilton menciona estandarizada de las variables como "esencial" de los aspectos de análisis de cluster, a pesar de no ir más a fondo en la cuestión.

3voto

Steve Scheffler Puntos 1166

El análisis de Cluster no implica la prueba de hipótesis de por sí, pero en realidad es sólo una colección de diferentes similitud de algoritmos para el análisis de exploración. Puede forzar la prueba de hipótesis un poco, pero los resultados son a menudo inconsistentes, ya que los cambios del clúster son muy sensibles a los cambios en los parámetros.

http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_introclus_sect010.htm

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X