Estoy tratando de identificar los tipos de hábitat de 85 parcelas. Tengo la intención de hacer un análisis de cluster para identificar los tipos de hábitat, y de la esperanza de ajuste adicional de parcelas en la identificación de los clusters.
(Para el contexto, tomé medidas de hábitat parcelas en varios tipos diferentes de hábitat a través de un sitio de estudio, a continuación, también se miden las mismas variables en los animales ubicaciones. Espero que para identificar diferencial de la selección de hábitat de dos especies diferentes.)
Qué necesito para aplicar transformaciones a los datos antes de hacer el análisis de cluster?
- Mi conjunto de datos incluye categorías (por ejemplo. tipo de sustrato: el barro, grava, etc), la distancia euclídea (0 - 3400 cm), índices calculados (0 - 1.0), y la vegetación por ciento de cobertura (0 - 100, con un montón de ceros) de las variables. Cada uno de estos requeriría diferentes transformaciones para cumplir con los supuestos con otros métodos de modelización, pero ¿qué pasa cuando la agrupación?? Es cada tipo considerado en su propia escala? También, algunos de mis variables son colineales - estos deben ser removidos antes de que el análisis de cluster como con otros métodos?
O jerárquico K-means métodos?
- Yo tenía la intención de utilizar Gower diferencia de la matriz para un análisis de cluster jerárquico, pero hay una razón obvia para utilizar K-means métodos? Me pregunto si mi elección del método aquí afectará mi capacidad de "adaptarse" otros tipos de datos.
Estoy usando R.