41 votos

¿Cómo se mide la no-uniformidad de distribución?

Estoy tratando de llegar con una métrica para medir la no-uniformidad de distribución para un experimento que estoy corriendo. Tengo una variable aleatoria que deben ser distribuidos de manera uniforme en la mayoría de los casos, y me gustaría ser capaz de identificar (y posiblemente medir el grado de) ejemplos de conjuntos de datos donde la variable no está uniformemente distribuido dentro de un cierto margen.

Un ejemplo de tres series de datos de cada uno con 10 mediciones en representación de la frecuencia de la ocurrencia de algo estoy de medición podría ser algo como esto:

a: [10% 11% 10%  9%  9% 11% 10% 10% 12%  8%]
b: [10% 10% 10%  8% 10% 10%  9%  9% 12%  8%]
c: [ 3%  2% 60%  2%  3%  7%  6%  5%  5%  7%]   <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]

Me gustaría ser capaz de distinguir las distribuciones como c de aquellos que, como a y b, y de la medida c de la desviación de una distribución uniforme. De forma equivalente, si no hay una métrica para la uniformidad de distribución es (std. la desviación de cerca de cero?), Tal vez puedo utilizar para distinguir aquellos con alta varianza. Sin embargo, mis datos sólo puede tener uno o dos valores atípicos, como la c ejemplo de arriba, y no estoy seguro de si esto va a ser fácilmente detectables de esa manera.

Puedo hackear algo para hacer esto en el software, pero estoy buscando métodos estadísticos/enfoques para justificar esta formalmente. Tomé una clase de años, pero las estadísticas no es mi área. Esto parece como algo que debe tener un bien conocido enfoque. Lo siento si algo de esto es completamente hueso de la cabeza. Gracias de antemano!

32voto

phloopy Puntos 4285

Si usted tiene no sólo las frecuencias reales, pero la cuenta, puede utilizar una $\chi^2$ bondad de ajuste de prueba para cada serie de datos. En particular, desea utilizar la prueba para una distribución uniforme discreta. Esto te da una buena prueba, que le permite encontrar fuera de la serie de datos es probable que no haya sido generado por una distribución uniforme, pero no proporciona una medida de la uniformidad.

Hay otros enfoques posibles, tales como la computación en la entropía de cada serie - la distribución uniforme maximiza la entropía, por lo que si la entropía es sospechosamente bajos, a la conclusión de que usted probablemente no tiene una distribución uniforme. Que funciona como una medida de la uniformidad en algún sentido.

Otra sugerencia sería el uso de una medida como la de Kullback-Leibler divergencia, que mide la similitud de dos distribuciones.

8voto

Zizzencs Puntos 1358

En adición a @MansT 's buenas ideas, que podría llegar con otras medidas, pero depende de a qué te refieres por "la falta de uniformidad". Para mantenerlo simple, vamos a ver en 4 niveles. Una perfecta uniformidad es fácil de definir:

25 25 25 25

pero, ¿cuál de los siguientes es más no uniforme?

20 20 30 30 o 20 20 25 35

o son igualmente no uniforme?

si usted piensa que son igualmente no uniforme, se puede utilizar una medida basada en la suma de los valores absolutos de las desviaciones de lo normal, escala por el máximo posible. A continuación, la primera es 5 + 5 + 5 + 5 = 20 y la segunda es 5 + 5 + 0 + 10 = 20. Pero si usted piensa que el segundo es más uniforme, podría usar algo basado en los cuadrados de las desviaciones, en caso de que el primero se 25 + 25 + 25 + 25 = 100 y el segundo se 25 + 25 + 0 + 100 = 150.

7voto

user495285 Puntos 51

Aquí es un simple heurístico: si usted asume elementos en cualquier vector suma a $1$ (o simplemente normalizar cada elemento con la suma de lograr esto), entonces la uniformidad puede ser representado por L2 norma, que va de la $1/\sqrt d$$1$, $d$ la dimensión de los vectores. El límite inferior $1/\sqrt d$ corresponde a la uniformidad y a cota superior a la $1$-caliente vector.

A esta escala con una puntuación entre el$0$$1$, puede utilizar $(n*\sqrt d - 1)/(\sqrt d - 1)$ donde $n$ es la norma L2.

Un ejemplo modificado a partir de la urs --- con elementos de sumar a $1$ y todos los vectores con la misma dimensión de la simplicidad:

0.10    0.11    0.10    0.09    0.09    0.11    0.10    0.10    0.12    0.08
0.10    0.10    0.10    0.08    0.12    0.12    0.09    0.09    0.12    0.08
0.03    0.02    0.61    0.02    0.03    0.07    0.06    0.05    0.06    0.05

El siguiente será el rendimiento $0.0028$, $0.0051$, y $0.4529$ para las filas:

d=size(m,2); 
for i=1:size(m); 
    disp( (norm(m(i,:))*sqrt(d)-1) / (sqrt(d)-1) ); 
end

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X