Estoy tratando de encontrar una manera de juzgar la similitud de los distintos grupos de la muestra, basado en la fuerza de la correlación de un conjunto de variables dentro de cada grupo, y estoy tratando de averiguar si lo que estoy haciendo es estadísticamente válida, y si hay una mejor manera.
Por ejemplo, yo tengo 63 regiones geográficas. Tengo una sola variable dependiente, y una docena de posibles variables explicativas que pueden o no pueden tener una buena correlación/poder explicativo de la variable dependiente dentro de cada región. Por ejemplo, en la región 1, la lluvia puede ser la mejor variable. En la región 2, la temperatura y 6 meses quedado lluvia podría ambos tienen una fuerte correlación.
Luego quiero producir esencialmente de una ordenación gráfico de salida de la muestra, dicen, las regiones donde la lluvia fue una importante variable explicativa se agrupan, las regiones donde la temperatura es una variable importante agrupan etc. en la ordenación del espacio.
La forma en que lo he conseguido, hasta ahora, se va a ejecutar GLMs para cada variable en cada región, y se estableció una tabla de fuerza de la correlación de las medidas, es decir,.
Region Rain Temp 6m_Rain Evap
1 0.52 0.02 0.34 0.24
2 0.04 0.43 0.49 0.08
.....
(He intentado una serie de diferentes medidas aquí; valor de p, r2 valores, etc.)
Entonces me he encontrado esta tabla a través de una ordenación NMDS, con regiones como "sitios", y variables como "especies". El resultado se parece bastante razonable - regiones que iba a esperar a tener climáticas similares a los conductores de mis fenómeno de interés se agrupan juntos. Pero tengo la sensación de que la ejecución de una ordenación en R2 valores o los valores de p es un torpe cosa que hacer, y mi experiencia en la ecología es, probablemente, me condujo hacia el uso de NMDS/PCA estilo de técnicas multivariantes cuando podría haber algo mejor ahí fuera.
¿Alguien tiene alguna sugerencia en cuanto a la mejor manera de hacer esto?