16 votos

Una medida robusta (no paramétrica) como el Coeficiente de Variación -- IQR/mediano, o alternativo?

Para un determinado conjunto de datos, la dispersión se calcula a menudo como la desviación estándar o como el IQR (rango intercuartil).

Mientras que un standard deviation está normalizada (z-scores, etc.) y por lo tanto puede utilizarse para comparar la dispersión de dos poblaciones diferentes, no es el caso del IQR ya que las muestras de dos poblaciones diferentes podrían tener valores a dos escalas bastante diferentes,

 e.g. 
 Pop A:  100, 67, 89, 75, 120, ...
 Pop B:  19, 22, 43, 8, 12, ...

Lo que busco es una medida robusta (no paramétrica) que pueda usar para comparar la variación dentro de las diferentes poblaciones.

Opción 1: IQR / Median -- esto sería por analogía con la coeficiente de variación es decir, a $ \frac { \sigma }{ \mu }$ .

Opción 2: Range / IQR

Pregunta: ¿Cuál es la medida más significativa para comparar la variación entre poblaciones? Y si es la Opción 1, ¿la Opción 2 es útil para algo / significativa, o es una medida fundamentalmente defectuosa?

19voto

Sean Hanley Puntos 2428

Es importante tener en cuenta que el mínimo y el máximo no suelen ser estadísticas muy buenas para utilizar (es decir, pueden fluctuar mucho de una muestra a otra, y no siguen una distribución normal como, por ejemplo, la media podría deberse al Teorema del Límite Central). En consecuencia, la gama rara vez es una buena opción para otra cosa que no sea establecer la gama de esta muestra exacta . Para una simple estadística no paramétrica que represente la variabilidad, el rango intercuartil es mucho mejor. Sin embargo, aunque veo la analogía entre el IQR/mediano y el coeficiente de variación, no creo que sea la mejor opción.

Puede que quieras mirar en el desviación absoluta media de la mediana ( MADM ). Eso es: $$ MADM = \text {median}(|x_i- \text {median}( \bf x)|) $$ Sospecho que una mejor analogía no paramétrica del coeficiente de variación sería MADM/mediante, en lugar de IQR/mediante.

15voto

CodingWithoutComments Puntos 9412

La pregunta implica que el desviación estándar (SD) está de alguna manera normalizada, por lo que puede utilizarse para comparar la variabilidad de dos poblaciones diferentes. No es así. Como dijeron Peter y John, esta normalización se hace como cuando se calcula la coeficiente de variación (CV), que es igual a SD/Mean. La SD está en las mismas unidades que los datos originales. Por el contrario, el CV es una proporción sin unidades.

Su elección 1 (IQR/Mediano) es análoga a la CV. Al igual que el CV, sólo tendría sentido cuando los datos son datos de proporción. Esto significa que cero es realmente cero. Un peso de cero no es un peso. Una longitud de cero no es una longitud. Como ejemplo contrario, no tendría sentido para la temperatura en C o F, ya que cero grados de temperatura (C o F) no significa que no haya temperatura. El simple hecho de cambiar entre el uso de la escala de C o F le daría un valor diferente para el CV o para la proporción de IQR/Mediano, lo que hace que ambas proporciones no tengan sentido.

Estoy de acuerdo con Peter y John en que su segunda idea (Rango/IQR) no sería muy robusta para los valores atípicos, así que probablemente no sería útil.

8voto

dan90266 Puntos 609

Prefiero no calcular medidas como CV porque casi siempre tengo un origen arbitrario para la variable aleatoria. En cuanto a la elección de una medida de dispersión robusta, es difícil superar la diferencia media de Gini, que es la media de todos los valores absolutos posibles de las diferencias entre dos observaciones. Para un cálculo eficiente, véase por ejemplo la R rms paquete GiniMd función. Bajo la normalidad, la diferencia media de Gini es 0,98 tan eficiente como la SD para estimar la dispersión.

6voto

"Opción 1" es lo que quieres si estás usando no-paramétricos con el propósito común de reducir el efecto de los valores atípicos. Incluso si lo estás usando por un sesgo que también tiene el efecto secundario de tener comúnmente valores extremos en la cola, eso podría ser un valor atípico. Su "Opción 2" podría verse dramáticamente afectada por los valores atípicos o cualquier valor extremo, mientras que los componentes de su primera ecuación son relativamente robustos frente a ellos.

[Esto dependerá un poco del tipo de IQR que seleccione (ver la ayuda R sobre el cuantil).]

3voto

Zizzencs Puntos 1358

Como @John nunca he oído hablar de esa definición de coeficiente de variación. No lo llamaría así si lo utilizara, confundiría a la gente.

"¿Cuál es más útil?" dependerá de para qué lo quieras usar. Ciertamente la opción 1 es más robusta a los valores atípicos, si estás seguro de que eso es lo que quieres. ¿Pero cuál es el propósito de comparar las dos distribuciones? ¿Qué es lo que intenta hacer?

Una alternativa es normalizar ambas medidas y luego examinar los resúmenes.

Otra es una trama QQ.

Hay muchos otros también.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X