Processing math: 100%

5 votos

¿Identificación de clusters/ordenación basado en estadística de correlación?

Estoy tratando de encontrar una manera de juzgar la similitud de los distintos grupos de la muestra, basado en la fuerza de la correlación de un conjunto de variables dentro de cada grupo, y estoy tratando de averiguar si lo que estoy haciendo es estadísticamente válida, y si hay una mejor manera.

Por ejemplo, yo tengo 63 regiones geográficas. Tengo una sola variable dependiente, y una docena de posibles variables explicativas que pueden o no pueden tener una buena correlación/poder explicativo de la variable dependiente dentro de cada región. Por ejemplo, en la región 1, la lluvia puede ser la mejor variable. En la región 2, la temperatura y 6 meses quedado lluvia podría ambos tienen una fuerte correlación.

Luego quiero producir esencialmente de una ordenación gráfico de salida de la muestra, dicen, las regiones donde la lluvia fue una importante variable explicativa se agrupan, las regiones donde la temperatura es una variable importante agrupan etc. en la ordenación del espacio.

La forma en que lo he conseguido, hasta ahora, se va a ejecutar GLMs para cada variable en cada región, y se estableció una tabla de fuerza de la correlación de las medidas, es decir,.

Region   Rain   Temp   6m_Rain   Evap
1        0.52   0.02   0.34      0.24
2        0.04   0.43   0.49      0.08
.....

(He intentado una serie de diferentes medidas aquí; valor de p, r2 valores, etc.)

Entonces me he encontrado esta tabla a través de una ordenación NMDS, con regiones como "sitios", y variables como "especies". El resultado se parece bastante razonable - regiones que iba a esperar a tener climáticas similares a los conductores de mis fenómeno de interés se agrupan juntos. Pero tengo la sensación de que la ejecución de una ordenación en R2 valores o los valores de p es un torpe cosa que hacer, y mi experiencia en la ecología es, probablemente, me condujo hacia el uso de NMDS/PCA estilo de técnicas multivariantes cuando podría haber algo mejor ahí fuera.

¿Alguien tiene alguna sugerencia en cuanto a la mejor manera de hacer esto?

4voto

Diego Avrale Puntos 31

Publicado solución puede ser adecuada, no estoy seguro. Pero no es un buen método que se ha trabajado para que exactamente su situación, que es, te gustaría clúster de un conjunto de unidades (por ejemplo, regiones geográficas), basado en las estimaciones de los parámetros de un primer modelado estadístico paso (aquí uso la beta pesos y asociados estándar de los errores de la regresión de los modelos). Es una generalización de la distancia de Mahalanobis, y se describe en detalle en el siguiente documento. Presentan una estructura jerárquica agglomerative el algoritmo de agrupamiento ("hError", sección 4) y un método basado en k-means ("kError,", sección 5). La sección 6 se describe el uso de estos métodos para la estimación de parámetros, y la sección 7 describe algunos ejemplos de aplicaciones de los métodos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X