4 votos

Denominador para calcular la desviación estándar.

Acabo de leer algo sobre el cálculo de la desviación estándar de la muestra. Algunas explicaciones decir que es a causa de un grado de libertad. Con una restricción que la media debe ser igual a cero, realmente sólo tiene n-1 grados de libertad. Bien, esta explicación es bastante convincente.

Pero todavía hay otra cuestión que permanecen en mi mente. Si el grado de libertad de los datos de la muestra es n-1 debido a la restricción, entonces la misma restricción se aplicará también para el conjunto de datos completo. Así que me parece que a la hora de calcular la desviación estándar del conjunto de datos completo, debemos también usar n-1 como denominador. ¿Puede alguien explicar esto a mí ¿por qué no utilizamos la n-1 para el conjunto de datos completo?

Por favor, dar cálido en ayuda de las matemáticas principiantes :)

6voto

Los "grados de libertad" explicación del uso de $n-1$ para la desviación estándar de la muestra es de cerca de la mano saludando.

El uso de $n$ en el cálculo de la varianza de la población, y así la desviación estándar de población, proviene de la definición de la varianza de un conjunto con un número de resultados igualmente probables. Esto es consistente con la definición de distribuciones discretas que tienen puntos con diferentes probabilidades (por lo que cuando no es $n$) y con las continuas distribuciones que tienen densidades en lugar de probabilidades.

Tomemos, por ejemplo, el conjunto de de igualmente probables valores de $(1,3,3,9)$. Este tiene una media de 4, la varianza de 9 y una desviación estándar de 3. También lo hace el conjunto de igualmente probables valores de $(1,1,3,3,3,3,9,9)$. Y así lo hace la distribución, que es $1$ con una probabilidad de $\frac{1}{4}$, $3$ con una probabilidad de $\frac{1}{2}$, e $9$ con una probabilidad de $\frac{1}{4}$. Esta consistencia es útil.

Así que ¿por qué utilizar $n-1$ como el denominador de la muestra estadísticas? La razón es el sesgo. Supongamos que tomamos una muestra (con reemplazo) de tamaño $n$ a partir de cualquiera de estas tres distribuciones. Tomando la suma de los valores de la muestra y dividiendo por $n$ (la media de la muestra) nos da una estimación de la media de población, y mientras que la media de la muestra no suele ser de 4, su valor esperado es de 4; por lo que es un estimador imparcial.

Tratando de la misma para la estimación de la varianza de la población, tomando la suma de los cuadrados de la diferencia entre los valores de la muestra y la media de la muestra y, a continuación, dividiendo por $n$, nos va a dar algo con valor esperado $9(n-1)/n$, que es ligeramente menor que $9$; por lo que es un estimador sesgado de la varianza de la población. Se convierte imparcial si se multiplica por $n/(n-1)$ que es el equivalente de uso de $n-1$ en el denominador. Así que si un imparcial estimador de la varianza es importante para usted, entonces esto es lo que debe hacer.

Usted puede tener otras consideraciones, en cuyo caso usted puede elegir tener un diferente estimador de la varianza. Es importante tener en cuenta que incluso si el estimador para la varianza es imparcial, su raíz cuadrada no es típicamente un proceso imparcial estimador de la desviación estándar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X