¿Identificación de clusters/ordenación basado en estadística de correlación?

Question

¿Identificación de clusters/ordenación basado en estadística de correlación?

Preguntado el 23 de Agosto, 2013: Cuando se hizo la pregunta
215 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy tratando de encontrar una manera de juzgar la similitud de los distintos grupos de la muestra, basado en la fuerza de la correlación de un conjunto de variables dentro de cada grupo, y estoy tratando de averiguar si lo que estoy haciendo es estadísticamente válida, y si hay una mejor manera.

Por ejemplo, yo tengo 63 regiones geográficas. Tengo una sola variable dependiente, y una docena de posibles variables explicativas que pueden o no pueden tener una buena correlación/poder explicativo de la variable dependiente dentro de cada región. Por ejemplo, en la región 1, la lluvia puede ser la mejor variable. En la región 2, la temperatura y 6 meses quedado lluvia podría ambos tienen una fuerte correlación.

Luego quiero producir esencialmente de una ordenación gráfico de salida de la muestra, dicen, las regiones donde la lluvia fue una importante variable explicativa se agrupan, las regiones donde la temperatura es una variable importante agrupan etc. en la ordenación del espacio.

La forma en que lo he conseguido, hasta ahora, se va a ejecutar GLMs para cada variable en cada región, y se estableció una tabla de fuerza de la correlación de las medidas, es decir,.

Region   Rain   Temp   6m_Rain   Evap
1        0.52   0.02   0.34      0.24
2        0.04   0.43   0.49      0.08
.....

(He intentado una serie de diferentes medidas aquí; valor de p, r² valores, etc.)

Entonces me he encontrado esta tabla a través de una ordenación NMDS, con regiones como "sitios", y variables como "especies". El resultado se parece bastante razonable - regiones que iba a esperar a tener climáticas similares a los conductores de mis fenómeno de interés se agrupan juntos. Pero tengo la sensación de que la ejecución de una ordenación en R² valores o los valores de p es un torpe cosa que hacer, y mi experiencia en la ecología es, probablemente, me condujo hacia el uso de NMDS/PCA estilo de técnicas multivariantes cuando podría haber algo mejor ahí fuera.

¿Alguien tiene alguna sugerencia en cuanto a la mejor manera de hacer esto?

Preguntado el 23 de Agosto, 2013 por rajeev

Answer 1

1 Respuestas

Answer 2

4voto

Diego Avrale Puntos 31

Publicado solución puede ser adecuada, no estoy seguro. Pero no es un buen método que se ha trabajado para que exactamente su situación, que es, te gustaría clúster de un conjunto de unidades (por ejemplo, regiones geográficas), basado en las estimaciones de los parámetros de un primer modelado estadístico paso (aquí uso la beta pesos y asociados estándar de los errores de la regresión de los modelos). Es una generalización de la distancia de Mahalanobis, y se describe en detalle en el siguiente documento. Presentan una estructura jerárquica agglomerative el algoritmo de agrupamiento ("hError", sección 4) y un método basado en k-means ("kError,", sección 5). La sección 6 se describe el uso de estos métodos para la estimación de parámetros, y la sección 7 describe algunos ejemplos de aplicaciones de los métodos.

Respondido el 13 de Enero, 2014 por Diego Avrale (31 Puntos )

¿Identificación de clusters/ordenación basado en estadística de correlación?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Identificación de clusters/ordenación basado en estadística de correlación?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: