2 votos

Grupos de puntos en gráficos QQ

Al utilizar QQ Plots, siempre observo estos "grupos" de puntos; muchos conjuntos de puntos dispuestos en línea recta y, a veces, en curva, como se muestra a continuación:

exponencial:

Exponential QQ Plot

normal:

Normal QQ Plot

Los cuantiles teóricos son de exactamente la misma distribución como los vectores aleatorios simulados. He utilizado el siguiente código R a continuación para estos gráficos:

ggplot(data.frame("Theo" = sort(qnorm(ppoints(50))), "Act" = sort(rnorm(50))), aes(x = Theo, y = Act)) + geom_point(color = "#FC717F", alpha = 0.8) + labs(title = "QQPlot", x = "Theoretical Quantiles", y = "Actual Quantiles")

...pero se puede conseguir el mismo resultado con qqnorm(rnorm(50)) .

Mi pregunta es, ¿a qué se debe este efecto?

Supongo que estas pequeñas "carreras" se producen debido a alguna consecuencia de la distribución estadística de orden conjunto, pero no consigo averiguar cómo/por qué.

2voto

icelava Puntos 548

Si genera cualquier de ruido aleatorio y lo observas el tiempo suficiente, siempre podrás ver algún tipo de "patrón". Esto se llama pareidolia y puede hacer creer que los códigos de autenticación de dos factores se eligen deliberadamente para que sean fáciles de recordar .

Usted mismo puede observar este efecto, ya que ve el "patrón" en los datos generados aleatoriamente. A veces se ve un "patrón" de aglomeraciones, y luego un "patrón" de no aglomeraciones, es decir, puntos igualmente espaciados. Una de las dos cosas tiene que ocurrir necesariamente, así que no es de extrañar que aparezca una.

Por lo tanto: no hay nada digno de mención aquí. Lo siento.

2voto

AdamSane Puntos 1825

Estás viendo exactamente lo que deberías ver.

Consideremos el muestreo a partir de un uniforme (lo que ocurre cuando el muestreo a partir de otras distribuciones continuas sigue por transformación monótona).

Cuando se muestrean valores de una distribución uniforme, estos valores se distribuyen aleatoriamente, por lo que aunque los estadísticos de orden esperados estén espaciados uniformemente, los valores de los datos ordenados no estarán espaciados uniformemente. De hecho, si eran sería una señal clara de que los datos no eran aleatorios.

Qué debe la distribución de huecos ( distancias ) entre dos estadísticas de orden consecutivas?

Cuando se muestrea a partir de un uniforme estándar, es sencillo demostrar que la distribución de los huecos debe tener la misma distribución que la observación más pequeña, que a Beta $(1,n)$ .

Para tamaños de muestra típicos, se trata de un sesgo bastante correcto. He aquí un ejemplo para n=50:

beta density
$\qquad^\text{Density of spacings in samples of size 50 from a standard uniform}$

La mediana es 0,0138, la media 0,0196, pero el 5% de las veces se superará 4,2 veces la mediana: en una muestra típica, unos pocos huecos serán bastante grandes en relación con el hueco pequeño más común. Como resultado, aparecerá lo que parece un "amontonamiento", es decir, una serie de pequeñas diferencias seguidas de una relativamente grande.

Para otras distribuciones, sus distancias no se distribuyen de forma idéntica, pero puedes ver cuáles deberían ser en varias partes de la pantalla transformando estas distancias uniformes por la fdc inversa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X