4 votos

Las pruebas para la estructura de cluster en una dimensión

Tengo un conjunto de puntos a lo largo de un intervalo. ¿Cuál es el mejor significado de la prueba para medir la agrupación de los puntos en el intervalo (desviación de una distribución uniforme)?

He añadido dos ejemplos de abajo - claramente por la inspección visual, la serie roja es agrupado mientras que el azul de la serie es más uniformemente distribuida en el intervalo. Estoy buscando una significación de la prueba para identificar a esta agrupación.

He intentado usar un número de pruebas, incluyendo la KS-test, pero este tiene problemas con puntos en el centro v. al principio y al final (ver: KS prueba de Homogeneidad)

Una limitación importante aquí es el número de puntos de datos (lo más probable es que no se puede aplicar una prueba de chi-cuadrado).

Aquí está el ejemplo, se establece:

Ejemplo 1:

[1] 0.007257242 0.010597715 0.010633415 0.011403509 0.014274786 0.014274786
[7] 0.014601183 0.014611383 0.014616483 0.014621583 0.014647083 0.014647083
[13] 0.014647083 0.014692982 0.014692982 0.014703182 0.014703182 0.014718482
[19] 0.014738882 0.014743982 0.014759282 0.014764382 0.014764382 0.014789882
[25] 0.014810282 0.014810282 0.014866381 0.014866381 0.014866381 0.014866381
[31] 0.014866381 0.014871481 0.014871481 0.014871481 0.014876581 0.014876581
[37] 0.014891881 0.014891881 0.014891881 0.014891881 0.015070379 0.015070379
[43] 0.015146879 0.015146879 0.015151979 0.015151979 0.015151979 0.015162179
[49] 0.015172379 0.015172379 0.015177479 0.015177479 0.015345777 0.015427377
[55] 0.015427377 0.020063239 0.051172991 0.059077927 0.090044880 0.118604651
[61] 0.135638515 0.245542636 0.258465932 0.314723582 0.566289270 0.611383109
[67] 0.648434313 0.648434313 0.654238066 0.691605467 0.695608935 0.990172379

Ejemplo 2:

[1] 0.01579036 0.01579036 0.02972629 0.10616355 0.10616355 0.14897223
[7] 0.18280039 0.19935524 0.26667997 0.29327766 0.40871955 0.40871955
[13] 0.45590335 0.48782180 0.50356611 0.50356611 0.51465283 0.64006079
[19] 0.66558696 0.68946746 0.68946746 0.74137026 0.79837890 0.84520041
[25] 0.87293410 0.87293410 0.92225480 0.92225480 0.98610399

enter image description here

3voto

jldugger Puntos 7490

La distribución de los intervalos entre las estadísticas de orden de una uniforme distribución exponencial. Por lo tanto, se aplican a cualquier distribución de la prueba como a los intervalos. Pero antes de hacer eso, dibujar un QQ plot de ellos:

qq.unif <- function(x, ...) {
  dx <- diff(sort(x))
  n <- length(dx)
  p <- -log(1 - (1:n) / (n+1))
  plot(sort(dx), p, ...)
}
par(mfrow=c(1,3))
qq.unif(x, main="x")
qq.unif(y, main="y")
qq.unif(runif(100), main="Uniform"

(Esta R código presume que los datos de las matrices se denominan x y y.) Su salida muestra sus gráficos QQ, junto con una referencia de la parcela obtenida a partir de a $100$ iid uniforme de variables:

Figure

Uniforme de variables aparecerán a lo largo de la diagonal principal. Las desviaciones de que la diagonal indican las desviaciones de la homogeneidad:

  • El x conjunto de datos está lejos de ser uniforme: contiene demasiadas diferencias pequeñas o demasiado grandes.

  • El y conjunto de datos es prácticamente uniforme. Pero mira la pila de valores en $0$: estos lazos son evidencia de una sutil falta de uniformidad.

  • El azar del conjunto de datos es prácticamente uniforme. Dibujo de un par de parcelas de esta manera va a indicar la cantidad de desviación esperar cuando los datos deben ser considerados uniforme.

Esta propuesta gráfica es mucho más reveladora y útil que cualquier prueba estadística sería.

1voto

Owen Fraser-Green Puntos 642

Su problema es similar, si no idéntica a la de determinar cómo muchos medios diferentes o únicos distribuciones existen en un conjunto dado de números. Observamos los datos y el deseo de generar hipótesis respecto a la cantidad de la distribución, sin supuestos previos. Considere un caso simple donde tenemos una serie (libre de auto-correlación) de decir el 20 de valores y una serie siguiente (libre de auto-correlación), de 20 de valores, PERO tener un medio diferente. Si ordenamos los 40 valores de baja a alta y analizar como si esta nueva serie fue una de las series de tiempo de valores consecutivos , se podría utilizar la Intervención de Detección para encontrar ese punto que siempre el contraste más grande entre dos medios locales. Esto podría ser denominado como un cambio de nivel o la media de cambio Y, en general, una intercepción de cambio . En ese espíritu, he utilizado AUTOBOX para analizar el primero de la serie. Precisamente yo tomé a vuestro 72 valores y les ordenó de baja a alta y se obtuvieron los siguientes enter image description here , que tuvo en cuenta la no-constante de la varianza de error (visualmente obvio). Dos presentaciones tabulares enter image description here enter image description here

La ecuación que se genera automáticamente se refleja la memoria como este fue inducida por el período a período de auto-correlación de la serie, Y una sugerencia de que un cambio de nivel/ruptura/punto de intercepción de cambio se encuentran en o alrededor de período 58 .enter image description here. Viendo la segunda tabla de la 58ª valor es .05908 . Una más correcta conclusión de que podría haber sido el punto 57 .05117 pero AUTOBOX para fines de velocidad no evaluar todos y cada punto en el tiempo. Uno podría concluir que los valores de 0. a .02006 (la 56ª valor) fueron significativamente diferentes de los valores de período de 57 a 72. De esta manera se podría entonces volver a entrar en AUTOBOX con valores 1-56 para identificar posibles sub-saltos de valores Y 57-73 para identificar posibles sub-breaks.De esta manera iterativa uno podría ser capaz de resolver su problema MUY difícil. La falta de cualquier otra respuesta a su pregunta sugiere que los expertos residentes han desconcertado. Espero que esto ayude.enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X