21 votos

¿Cuándo utilizar la distancia euclídea ponderada y cómo determinar los pesos a utilizar?

Tengo un conjunto de datos donde cada dato consta de $n$ diferentes medidas. Para cada medida, tengo un valor de referencia. Me gustaría saber lo cerca que está cada dato del valor de referencia.

Se me ocurrió utilizar la Distancia Euclídea Ponderada de esta manera:

$\hspace{0.5in} d_{x,b}=\left( \sum_{i=1}^{n}w_i(x_i-b_i)^2)\right)^{1/2} $

donde

$\hspace{0.5in}x_i$ es el valor de la i-ésima medida para los datos concretos

$\hspace{0.5in}b_i$ es el valor de referencia correspondiente a esa medida.

$\hspace{0.5in} w_i$ es el valor del peso entre que atribuiré a la i-ésima medida con sujeción a lo siguiente:

$\hspace{1in}0<w_i<1$ y $\sum_{i=1}^{n}1$

Sin embargo, basándose en este he descubierto que el peso a utilizar es el recíproco de la varianza de la i-ésima medida. No creo que este tipo de ponderación tenga en cuenta la importancia que daré a cada medida.

Por lo tanto:

  1. ¿Existen métodos para establecer una serie de ponderaciones que reflejen la importancia relativa que el observador concede a una medida, o puede éste asignar valores arbitrarios a las ponderaciones?

  2. ¿Es adecuado utilizar la distancia euclídea ponderada para resolver este problema?

23voto

James Sutherland Puntos 2033

Pesas para la normalización

La configuración que tiene es una variante de Distancia Mahalanobis . Así que cuando $w$ es el recíproco de la varianza de cada medición, está poniendo todas las mediciones en la misma escala. Esto implica que crees que la variación de cada una es igual de "importante", pero que algunas se miden en unidades que no son inmediatamente comparables.

Ponderación de la importancia

Es libre de poner lo que quiera como ponderaciones, incluidas las medidas de "importancia" (aunque puede que quiera estandarizar antes de la ponderación de importancia si las unidades de medida difieren).

Un ejemplo puede ayudar a aclarar las cuestiones: consideremos la idea de estimar las "distancias" ideológicas entre los actores políticos. En esta aplicación $x$ y $b$ podrían ser las posiciones de dos actores en el $i$ -ésima edición, y $w_i$ la relevancia de esa cuestión. Por ejemplo, $b_i$ podría ser la posición del statu quo en alguna dimensión, de la que difieren las posiciones de varios actores. En este caso, es preferible medir en lugar de afirmar tanto la prominencia como la posición. En cualquier caso, las grandes ponderaciones harán que las diferencias en cuestiones no salientes tengan menos efecto en la distancia global entre actores si se calculan según la primera ecuación. Obsérvese también que en esta versión asumimos implícitamente que no hay covarianza relevante entre las posiciones, lo cual es una afirmación bastante fuerte.

Centrándonos ahora en la pregunta 2: En la aplicación que acabo de describir, la justificación de la ponderación y las distancias se basa en supuestos de la teoría de juegos sobre estructuras de preferencias transitivas y similares. En última instancia, estas son las únicas razones por las que es "apropiado" calcular las distancias de esta manera. Sin ellos sólo tenemos un montón de números que obedecen a la desigualdad triangular.

Los pesos como medida implícita

Sobre el tema de la covarianza, podría ser útil pensar en su problema como uno de identificar el subespacio relevante dentro del cual las distancias tienen sentido sustantivo, en el supuesto de que muchas de las mediciones que tiene en realidad miden cosas similares. Un modelo de medición, por ejemplo, el análisis factorial, proyectaría todo a través de la combinación ponderada en un espacio común en el que se podrían calcular las distancias. Pero, de nuevo, tendríamos que conocer el contexto de su investigación para decir si eso tendría sentido.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X