32 votos

¿Análogo 2D de la desviación estándar?

Considere el siguiente experimento: se da a un grupo de personas una lista de ciudades, y se les pide que marquen las ubicaciones correspondientes en un mapa del mundo (sin etiquetar). Para cada ciudad, se obtendrá una dispersión de puntos centrada aproximadamente en la ciudad respectiva. Algunas ciudades, por ejemplo Estambul, mostrarán menos dispersión que otras, por ejemplo Moscú.

Supongamos que para una ciudad determinada, obtenemos un conjunto de muestras 2D $\{(x_i, y_i)\}$ que representa el $(x, y)$ posición de la ciudad (por ejemplo, en un sistema de coordenadas local) en el mapa asignado por el sujeto de la prueba $i$ . Me gustaría expresar la cantidad de "dispersión" de los puntos de este conjunto como un único número en las unidades adecuadas (km).

Para un problema 1D, elegiría la desviación estándar, pero ¿hay algún análogo 2D que pueda elegirse razonablemente para la situación descrita anteriormente?

21voto

Niall Puntos 51

Una cosa que podrías usar es una medida de distancia desde un punto central, ${\bf c}=(c_{1},c_{2})$ como la media muestral de los puntos $(\overline{x}, \overline{y})$ o quizás el centroide de los puntos observados. Entonces, una medida de la dispersión sería la distancia media a ese punto central:

$$ \frac{1}{n} \sum_{i=1}^{n} || {\bf z}_{i} - {\bf c} || $$

donde ${\bf z}_{i} = \{ x_{i}, y_{i} \}$ . Hay muchas opciones posibles para una medida de distancia, pero la $L_{2}$ La norma (por ejemplo, la distancia euclidiana) puede ser una opción razonable:

$$ || {\bf z}_{i} - {\bf c} || = \sqrt{ (x_{i}-c_{1})^{2} + (y_{i}-c_{2})^{2} } $$

Sin embargo, hay muchas otras opciones posibles. Véase http://en.wikipedia.org/wiki/Norm_%28mathematics%29

7voto

Judioo Puntos 625

Una buena referencia sobre la métrica de la distribución espacial de los patrones de puntos es el Manual CrimeStat (en particular para esta pregunta, Capítulo 4 será de interés). Al igual que la métrica sugerida por Macro, la desviación estándar de la distancia es similar a una desviación estándar 2D (la única diferencia es que se dividiría por "n-2" y no por "n" en la primera fórmula que dio Macro).

Su experimento de ejemplo me recuerda un poco a cómo los estudios evalúan Perfiles geográficos de los delincuentes por lo que las métricas utilizadas en esos trabajos pueden ser de interés. En particular, los términos precisión y exactitud se utilizan bastante y serían pertinentes para el estudio. Las conjeturas pueden tener una pequeña desviación estándar (es decir, ser precisas) pero seguir teniendo una exactitud muy baja.

5voto

Math Machine Puntos 141

De hecho, hace poco me encontré con un problema similar. Parece que quieres una forma de medir la dispersión de los puntos en el área. Por supuesto, para una medida dada, usted tendría que darse cuenta de que si todos los puntos están en una línea recta, la respuesta es cero, ya que no hay variedad de 2 dimensiones.

De los cálculos que hice, esto es lo que obtuve:

$$ \sqrt{S_{xx}S_{yy}-S_{xy}²} $$

En este caso, Sxx y Syy son las varianzas de x y de y respectivamente, mientras que Sxy es algo así como la varianza mixta de x e y.

Para explicarlo, suponiendo que hay n elementos, y $x_μ$ representa el valor medio de x y $y_μ$ representa la media de y:

$$ S_{xx}=\frac{1}{n} \sum_{i=1}^{n} (x-x_μ)² $$ $$ S_{yy}=\frac{1}{n} \sum_{i=1}^{n} (y-y_μ)² $$ $$ S_{xy}=\frac{1}{n} \sum_{i=1}^{n} (x-x_μ)(y-y_μ) $$

Espero que esto te sirva.

Además, si te preguntas cómo hacerlo en dimensiones superiores, como medir la dispersión del volumen o el volumen de surterones en 4 dimensiones, tienes que formar una matriz como tal:

Sxx Sxy Sxz ...

Syx Syy Syz ...

Szx Szy Szz ...

... ... ... ...

Y continúa con el número de dimensiones que necesites. Deberías ser capaz de averiguar los valores de S dadas las definiciones proporcionadas anteriormente, pero para diferentes variables.

Una vez formada la matriz, toma el determinante, halla la raíz cuadrada y ya está.

2voto

Russ Cam Puntos 58168

Creo que deberías utilizar la "distancia de Mahalanobis" en lugar de las normas de distancia euclidiana, ya que tiene en cuenta la correlación del conjunto de datos y es "invariable a escala". Aquí está el enlace:

http://en.wikipedia.org/wiki/Mahalanobis_distance

También se puede utilizar la "profundidad de medio espacio". Es un poco más complicado pero comparte muchas propiedades atractivas. La profundidad de medio espacio (también conocida como profundidad de localización) de un punto dado a en relación con un conjunto de datos P es el número mínimo de puntos de P que se encuentran en cualquier medio plano cerrado determinado por una línea que pasa por a. Aquí están los enlaces:

http://www.cs.unb.ca/~bremner/investigación/charlas/encuesta en profundidad.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf

1voto

Napster_X Puntos 101

Para este ejemplo concreto - donde hay una respuesta "correcta" predeterminada, yo reelaboraría las cooridnadas x/y para que fueran coordenadas polares alrededor de la ciudad que se les pide que marquen en el mapa. La precisión se mide entonces en función del componente radial (media, sd, etc.). También se podría utilizar un "ángulo medio" para medir el sesgo.

Por mi parte, sigo buscando una buena solución para cuando no hay un punto central predeterminado, y no me gusta la idea de un paso previo sobre los datos para crear un centroide.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X