4 votos

¿Es posible el siguiente conjunto de datos?

"Es posible crear un conjunto de datos donde $\bar{x}=30.0$, rango de $R=10$ (es decir, el max-min=10), y la varianza $s^2=40.0$?"

Me siento una especie de tonto al hacer esta pregunta, pero no estoy muy seguro de que estoy en el camino correcto. Sé que con dos puntos de datos, el máximo de la varianza es $50$ si $x_1=25$$x_2=35$, y luego, cuando la adición de un tercer punto, la varianza parece caer a un máximo de alrededor de $33$ si me permanecer dentro de la gama.

Es eso correcto, y hay una más manera matemática para mostrar lo que yo he dicho? La mayoría de los que nos han dado hasta ahora es la ecuación de la varianza de la muestra, la media, y un par de párrafos sobre lo que la desviación estándar es.

8voto

AdamSane Puntos 1825

Con un almacén de variable aleatoria, la población de la desviación estándar no puede exceder de la mitad de la población de la gama (de forma equivalente, la varianza no puede exceder de la cuarta parte de la plaza de la gama). Usted puede lograr que obligado por la división de la población, exactamente en la mitad y tener la mitad de la población en el mínimo y en la mitad en el máximo. Así, con una población (o en el límite de tamaño de la muestra $\to\infty$), es imposible para una variable con un rango de $10$ tener una desviación estándar por encima de $5$ (varianza no puede exceder $25$).

En consecuencia, en muestras, $s_{n}=\sqrt{\frac{1}{n}\sum_i (x_i-\bar{x})^2}\leq (x_{(n)}-x_{(1)})/2$ (desde el ECDF es válido CDF, el obligado debe aplicar)

Sin embargo, debido a la corrección de Bessel con las muestras, la desviación estándar puede exceder de la mitad del rango --- a veces usted puede tener:

$s_{n-1}=\sqrt{\frac{1}{n-1}\sum_i (x_i-\bar{x})^2} =\sqrt{\frac{n}{n-1}} s_n > (x_{(n)}-x_{(1)})/2$

mientras $n$ es lo suficientemente pequeño y $s_n$ ya estaba lo suficientemente cerca de su límite superior.

En tu ejemplo, con $n=2$, el valor máximo de la tarjeta sd es $s_{n-1}=\sqrt{\frac{2}{1}}s_n=\sqrt{2}\cdot\frac{10}{2}$; equivalentemente, la varianza puede ser tan alta como $2\cdot \frac{10^2}{2^2}= 50$. De hecho, para hacer el rango de 10 $n=2$ debe tener $s_n=5$, y como resultado de la varianza de la muestra, $s_{n-1}^2$ debe $50$.

Pero tan pronto como se añade una tercera observación, hay dos efectos operativo para hacerlo más pequeño; con el "$s_n^2$ no puede exceder de la plaza de la mitad del rango" en efecto, la varianza de la muestra es limitado a $\frac{3}{2}\cdot 25=37.5$, pero en realidad eso no es posible debido a que usted no puede dividir la tercera observación igualmente a los extremos del rango, por lo que sólo se puede obtener a a $33\frac{1}{3}$; sólo desciende más con $n$ después de eso.


Es posible poner todo este razonamiento en una formal argumento matemático... pero de que se ve como un ejercicio para mí (es decir, un self-study pregunta), por lo que este esquema debe ser más que suficiente. (También he invocado el hecho de que la varianza de la población se limita a la plaza de la mitad del campo de tiro, sería necesario establecer que si quieres un argumento formal.)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X