4 votos

Ecológica de datos mixtos de análisis de cluster: Transformaciones necesarias? El uso de K-medios o métodos jerárquicos?

Estoy tratando de identificar los tipos de hábitat de 85 parcelas. Tengo la intención de hacer un análisis de cluster para identificar los tipos de hábitat, y de la esperanza de ajuste adicional de parcelas en la identificación de los clusters.

(Para el contexto, tomé medidas de hábitat parcelas en varios tipos diferentes de hábitat a través de un sitio de estudio, a continuación, también se miden las mismas variables en los animales ubicaciones. Espero que para identificar diferencial de la selección de hábitat de dos especies diferentes.)

  1. Qué necesito para aplicar transformaciones a los datos antes de hacer el análisis de cluster?

    • Mi conjunto de datos incluye categorías (por ejemplo. tipo de sustrato: el barro, grava, etc), la distancia euclídea (0 - 3400 cm), índices calculados (0 - 1.0), y la vegetación por ciento de cobertura (0 - 100, con un montón de ceros) de las variables. Cada uno de estos requeriría diferentes transformaciones para cumplir con los supuestos con otros métodos de modelización, pero ¿qué pasa cuando la agrupación?? Es cada tipo considerado en su propia escala? También, algunos de mis variables son colineales - estos deben ser removidos antes de que el análisis de cluster como con otros métodos?
  2. O jerárquico K-means métodos?

    • Yo tenía la intención de utilizar Gower diferencia de la matriz para un análisis de cluster jerárquico, pero hay una razón obvia para utilizar K-means métodos? Me pregunto si mi elección del método aquí afectará mi capacidad de "adaptarse" otros tipos de datos.

Estoy usando R.

5voto

Amadiere Puntos 5606

Primero tendrás que conseguir un trabajo a medida de similitud. No se puede simplemente tirar estos atributos juntos y esperamos que la distancia Euclídea del vector de trabajo. No.

K-means es sólo adecuado para la distancia Euclídea. Se basa en los medios para minimizar la varianza, de lo contrario puede no converger. Además, no funciona bien con muchos de los atributos (dimensiones). Pero es posible que desee buscar en los más modernos métodos de agrupamiento jerárquico y k-means. Sin duda elegir un algoritmo/aplicación que puede trabajar con la arbitraria de las funciones de la distancia, como usted probablemente tendrá que pasar un montón de tiempo en el ajuste fino de su medida de similitud.

Un enfoque común (para datos numéricos) es el uso de las puntuaciones z de todos los atributos y, a continuación, la Euclídea. Pero hay muchas situaciones que uno puede llegar hasta donde esto no es sino una burda heurística. Usted realmente necesita considerar cómo medir el "hábitat similitud". El algoritmo de clústeres de las necesidades de este, como "input", esto no quiere decir esto automágicamente, porque no se puede.

Incluso un enfoque más sencillo es cambiar la escala de todos los atributos por $\frac{a - a_\min}{a_\max - a_\min}$ para llegar a la unidad de intervalo de $[0:1]$. A continuación, una vez más, usa la distancia Euclídea. Coeficiente de similaridad de Gower es a lo largo de estas líneas (pero con Manhattan a pie).

Esencialmente, ambos de estos métodos tratan de peso atributos igualmente (con diferentes nociones de lo "igual" significa). Es razonable heurística si usted no sabe lo que los atributos que denotan o la forma de escala. Pero suponiendo que tiene los atributos de la escala de manera exponencial o logarítmica (por ejemplo, "volumen" frente a la "duración"), esta heurística se realice mal.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X