6 votos

¿Por qué la distribución empírica acumulada de 1: 1000 es una línea recta?

¿Por qué parcela(ecdf(1:1000)) producir una línea recta? plot(ecdf(1:1000)) in R

Desde Fn($x_n$) = $x_1$/(la suma total) +$x_2$/(total de la suma) +...+$x_n$/suma total = ($x_1+x_2+x_3+...+x_n$)/total de la suma. el hecho de que Fn(200) aproximadamente igual a 0.2 y suma(0:200) aproximadamente igual a 0.4 parece indicar que la suma(1:200) es aproximadamente la mitad de la suma(1:400), lo cual no es cierto, las dos expresiones de ser de 20.000 y 80.000 respectivamente.

Lo estoy entendiendo mal?

11voto

icelava Puntos 548

La función de distribución acumulativa de una variable aleatoria $X$ no tiene nada que ver con la suma de la variable aleatoria. Es

la probabilidad de que $X$ le tome un valor menor o igual a $x$.

Y, por supuesto, la probabilidad de que un valor en una muestra aleatoria a partir de su vector de $(1, \dots, 1000)$ es menos que o igual a 200 es exactamente la mitad de la probabilidad de que sea menor o igual a 400.

8voto

Dipstick Puntos 4869

Empírica de la función de distribución acumulativa es una suma acumulada de las frecuencias observadas $x_i$'s dividido por el tamaño de la muestra total. Sus datos es un vector de valores de$1$$1000$, donde cada uno de los valores aparece exactamente una vez. Esto significa que la variable sigue una distribución uniforme discreta, que tiene un plano de CDF.

Como se puede ver en el ejemplo de abajo, sería diferente si se utiliza otra entrada de datos.

set.seed(123)

x <- sample(0:1000, 1e5, replace = TRUE)
y <- rnorm(1e5)

def <- par(mfrow = c(1,2))
plot(ecdf(x))
plot(ecdf(y))
par(def)

enter image description here

o

z <- c(1,2,5,7,12,14,19,25,100,250,300,301,500,800,900,901,1000)
plot(ecdf(z))

enter image description here

Observe que en el segundo ejemplo las distancias entre los diferentes valores son diferentes así que no importa que cada uno de los valores apareció sólo una vez, la línea es curva.

3voto

trish Puntos 31

Usted puede pensar mecánicamente, demasiado.

El ECDF $\hat F$ evaluado en $x$ es la proporción de observaciones con valor de $x$ o por debajo. Puesto que usted tiene exactamente 1,000 observaciones $\{y_i\}_{i=i}^{1000}$, la diferencia entre el $\hat F(y_i)$ $\hat F(y_{i+1})$ es siempre 0,001 para cualquier $1 \le i < 1000$.

Por otra parte, los valores de la muestra están espaciados de manera uniforme, de modo que la diferencia entre el $y_i$ $y_{i+1}$ es siempre 1. Por lo tanto, para cualquier $1 \le i < 1000$, la pendiente entre el $\left(y_i, \hat F(y_i)\right)$ $\left(y_{i+1}, \hat F(y_{i+1})\right)$ siempre $\frac{0.001}{1}$. Una curva con una pendiente constante es solo una línea recta.

En cuanto a lo que usted está malentendido, el $Fn$ definió definitivamente no es la fórmula adecuada. El denominador debe ser el número de observaciones, y el numerador será el número de observaciones con valor en o por debajo de $x_n$.

2voto

reidar Puntos 81

La función de distribución empírica de una muestra$Y_1, ..., Y_n$ se define como

PS

En su conjunto de datos,$$ \widehat{F}(x) = \frac{1}{n} \sum_{i=1}^{n} \mathcal{I} \{ Y_i \leq x \} $. Entonces,$Y_i = i$, para$ \widehat{F}(x) = x/n$. Trazado de la forma en que lo hizo, esta parece una función lineal de$x = 1, 2, ..., 1000$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X