13 votos

Van dos distribuciones con idénticos 5-número de resúmenes siempre tienen la misma forma?

Sé que si puedo tener dos distribuciones con la misma media y varianza ser de diferentes formas, porque puedo tener una N(x,s) y U(x,s)

Pero ¿qué pasa si su min, Q1, la mediana Q3, y max son idénticos?

Pueden las distribuciones mirada diferente, entonces, o serán obligados a tomar la misma forma?

Mi única lógica detrás de esto es que si tienen exactamente el mismo 5-número de resumen se debe tomar en exactamente la misma distribución de la forma.

23voto

Silverfish Puntos 6909

Sólo porque el cinco el número de resumen es idéntico no significa que la distribución es idéntica. Este indica la cantidad de información que se pierde en el momento de presentar los datos de forma gráfica en un diagrama de caja!

Tal vez la forma más sencilla de ver el problema es que el número cinco de resumen no le dice nada acerca de la distribución de los valores entre el mínimo y el cuartil inferior, o entre el cuartil inferior y el de la mediana, y así sucesivamente. Usted sabe que la frecuencia entre el mínimo y el cuartil inferior debe coincidir con la frecuencia entre el cuartil inferior y la mediana (con las obvias excepciones, por ejemplo, si tenemos datos acostado en un cuartil, o peor aún, si dos cuartiles son atados), pero no saben para qué valores de la variable esas frecuencias son asignadas. Podemos tener una situación como esta:

Different distributions with the same five-number summary and box plot

Estas dos distribuciones tienen la misma cinco el número de sumario, por lo que sus diagramas de caja son idénticos, pero he escogido $X$ a tiene una distribución uniforme entre cada cuartil, mientras que $Y$ tiene una distribución de frecuencias bajas cerca de los cuartiles y altas frecuencias en el medio de los dos cuartiles. Efectivamente, la distribución de $Y$ ha sido constituida por la distribución de $X$ y pasando la mayor parte de los datos que está cerca de un cuartil más lejos de ella; mi R código realiza realmente esta en sentido inverso, comenzando con la distribución irregular de la $Y$ y la nivelación de las frecuencias por parte de la reasignación de los datos de los picos para rellenar las depresiones.

EDIT: Como @Glen_b dice, esto se hace aún más evidente cuando se mira la distribución acumulativa. He añadido las líneas de cuadrícula para mostrar la ubicación de los cuartiles, que son las mismas para las dos distribuciones para sus empírica Cdf se cruzan.

Empirical CDFs of two distributions with the same five-number summary

R código de

yfreq <- 2*rep(c(1:10, 10:1), times=4)
xfreq <- rep(mean(yfreq), times=length(yfreq))

x <- rep(1:length(xfreq), times=xfreq)
y <- rep(1:length(yfreq), times=yfreq)

ecdfX <- ecdf(x)
ecdfY <- ecdf(y)
plot(ecdfX, verticals=TRUE, do.points=FALSE, col="blue", lwd=2, yaxt="n", 
    main="Empirical CDFs", xlab="", ylab="Relative cumulative frequency")
plot(ecdfY, verticals=TRUE, do.points=FALSE, add=TRUE, col="black",
    yaxt="n", lwd=2)
axis(side=2, at=seq(0, 1, by=0.1), las=2)
abline(h=c(0.25,0.5,0.75,1), col="lightgrey", lty="dashed")
abline(v=summary(x), col="lightgrey", lty="dashed")
legend("right", c("x", "y"), col = c("blue", "black"),
       lty = "solid", lwd=2, bty="n")

par(mfrow=c(2,2))
hist(x, col="steelblue", breaks=((0:81)-0.5), ylim=c(0,25))
hist(y, col="grey", breaks=((0:81)-0.5), ylim=c(0,25))
boxplot(x, col="steelblue", main="Boxplot of x")
boxplot(y, col="grey", main="Boxplot of y")

summary(x)
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#   1.00   20.75   40.50   40.50   60.25   80.00 

summary(y)
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#   1.00   20.75   40.50   40.50   60.25   80.00 

17voto

AdamSane Puntos 1825

Esto es más claramente contestada por considerar que el (acumulado) función de distribución.

Especificar el mínimo, el máximo y los tres cuartiles especifica exactamente 5 puntos en el cdf, pero el cdf entre esos puntos puede ser de cualquier monótona no decreciente de la función entre los que todavía pasa por esos puntos:

enter image description here

En el dibujo, tanto el rojo y el negro Cdf comparten el mismo mínimo, máximo, y los cuartiles, pero son claramente diferentes distribuciones. Claramente cualquier número de otros Cdf podría especificarse que también pasan a través de los mismos cinco puntos.

De hecho, todo lo que hemos hecho es restringir nuestra función de distribución que se encuentran dentro de cuatro cuadros:

$\qquad$enter image description here

(siempre que también continúa para satisfacer las demás condiciones para un CDF). Que no es mucho de una restricción.

El mismo concepto puede ser aplicado a la muestra de cantidades - dos diferentes empírica Cdf sin embargo, puede tener el mismo de cinco el número de resumen.

3voto

Michael Osl Puntos 168

No, definitivamente no es el caso. Como un simple contador de ejemplo, comparar la distribución uniforme continua en $[0, 3]$ con la distribución uniforme discreta en $\{0, 1, 2, 3\}$.

Un ejemplo relacionado es el conocido cuarteto de Anscombe, donde hay 4 conjuntos de datos con 6 idénticas propiedades de las muestras (aunque diferente de la que usted menciona) aspecto completamente diferente. Ver: http://en.wikipedia.org/wiki/Anscombe%27s_quartet

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X