4 votos

Significación de la diferencia mediante una matriz de distancia

Así que mis datos consisten en una matriz de distancia para algunos puntos, y una tabla que clasifica los puntos como rojos o verdes. Quiero saber si hay alguna diferencia entre los puntos rojos y verdes. Hice la agrupación UPGMA y no parecen diferentes (no parece haber ninguna tendencia a que el rojo o el verde se agrupen), pero no sé cómo expresar la importancia de esto.

Supongo que la pregunta sería algo así como "cuál es la probabilidad de obtener una matriz de distancia como ésta, si los puntos estuvieran todos distribuidos al azar".

3voto

martino Puntos 1179

He aquí una solución sencilla que debería darle una idea de cómo resolver el problema. Que esta solución sea satisfactoria dependerá de su aplicación real.

Si quiere determinar lo habitual o inusual que es su matriz de distancia en comparación con otras disposiciones de los puntos, puede utilizar el siguiente enfoque. Necesitará una medida de lo bien que se agrupa cualquier conjunto de puntos rojos y verdes. Una métrica muy sencilla sería la siguiente.

Initialise the metric to zero.
Foreach data point
    If the nearest neighbour of a point is in a different group (ie different colour) then add this distance to the metric.  

Ahora, puedes etiquetar los puntos de datos aleatoriamente con rojo o verde y calcular la métrica para un etiquetado aleatorio. Repite este etiquetado aleatorio muchas veces y registra la métrica cada vez, lo que te permitirá determinar las estadísticas de distribución de la métrica.

También puede calcular la métrica para su conjunto real de puntos de datos y compararla con la distribución de datos de la métrica.

Hay que tener en cuenta algunas cosas. Si tienes dos grupos muy agrupados y bien separados, la métrica sería cero...., es decir, todos los vecinos pertenecen al mismo grupo.

La métrica puede ser tan sencilla como la que he descrito o más compleja, dependiendo de la aplicación de los resultados. Este tipo de recambio aleatorio es habitual. Si tienes un número relativamente pequeño de puntos, puedes calcular la métrica para todas las permutaciones posibles.

Puede encontrar más información sobre este tema aquí http://en.wikipedia.org/wiki/Resampling_(estadísticas

2voto

Uri Puntos 111

Podría utilizar la correlación punto-biserial (y su significado) entre la variable "distancia" y la variable binaria "los puntos son de diferente color (1) frente a los dos puntos del mismo color (1)". Esto le dará una impresión numérica de si los puntos del mismo color tienden a agruparse según las distancias.

1voto

Amadiere Puntos 5606

Para cada objeto, ordene los demás objetos por su distancia, calcule la curva ROC con respecto a la clase del objeto y el área bajo esta curva. Si la matriz de distancias es útil, el valor debe ser significativamente más cercano a 1,0 que a 0,5

0voto

Eero Puntos 1612

Utilice una prueba de permutación:

  1. Calcule su métrica de distancia
  2. Barajar aleatoriamente el estado rojo/verde de los puntos
  3. Recalcular la métrica de la distancia en los puntos barajados
  4. Repite los pasos 2 y 3 un montón de veces (1999 o 9999 estaría bien)
  5. Compara la métrica de los datos originales con las métricas de las métricas permutadas.

0voto

Robert C. Barth Puntos 9788

Otra opción es adonis en el paquete R vegan.

De los documentos:

adonis es una función para el análisis y la partición de sumas de cuadrados utilizando matrices de distancia semimétricas y métricas. En la medida en que particiona sumas de cuadrados de un conjunto de datos multivariantes, es directamente análoga a MANOVA (análisis multivariante de la varianza). M.J. Anderson (McArdle y Anderson 2001, Anderson 2001) se refiere al método como "manova permutacional" (antes "manova no paramétrico"). Además, como sus entradas son predictores lineales, y una matriz de respuesta de un número arbitrario de columnas (de 2 a millones), es una alternativa robusta tanto al MANOVA paramétrico como a los métodos de ordenación para describir cómo se atribuye la variación a diferentes tratamientos experimentales o covariables no controladas. También es análogo al análisis de redundancia (Legendre y Anderson 1999).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X