Alguien tiene una explicación intuitiva (no hay fórmulas, sólo palabras!: D) sobre la '$n-1$' en lugar de '$n$' en el estimador de la varianza no sesgada $$S_n^2 = \dfrac{\sum\limits_{i = 1}^n \left(X_i-\bar{X}\right)^2}{n-1}?$ $
Respuestas
¿Demasiados anuncios?(Demasiado largo para un comentario:)
Puedo ofrecer una explicación que muestra que la división por $n$ sería una subestimación de la varianza. La suma de los cuadrados de los $\sum (X_i - \overline{X})^2$ donde $\overline{X}$ es la media de la muestra, es menor que la suma de $\sum (X_i - \mu)^2$ donde $\mu$ es la verdadera media. Este es el caso, ya que $\overline{X}$ se espera que esté "más cerca" a los puntos de datos de la verdadera media desde $\overline{X}$ calculado sobre la base de datos. De hecho, $\overline{X}$ es el valor de $t$ tales que la suma de $\sum (X_i - t)^2$ es mínimo. Esto muestra que subestimamos la varianza, por lo que debemos dividir por algo más pequeño que el de $n$. Para poner aún menos formal, intenta determinar cuánto de sus datos se propaga mediante la comparación de las desviaciones respecto a la media de la muestra, que siempre es una subestimación. La media de la muestra es lo más cercano a los datos como sea posible, mientras que la media real diferirá más.
La razón por la que dividimos precisamente por $n-1$ es que el estimador se convierte imparcial (como se señaló en los comentarios).
Cualquier media ponderada de las $(X_i - \mu)^2$'s es un estimador imparcial. Esta es la razón por la que "debe utilizar $\mu$ en lugar de $\bar{x}$ y dividir por $n$, si la media real es conocido".
Por desgracia, $\mu$ es generalmente desconocida.
De todos los procedimientos que tratar de corregir este problema mediante la sustitución de $\mu$ a través de una función de la $X_i$, el que se lleva la sustitución de $\mu$ a la media de los $X_i$ (con los mismos pesos) minimiza el estimador, y por lo tanto reduce su valor esperado por debajo de la de el imparcial estimador de uso $\mu$.
No es de extrañar en absoluto que la modificación de un procedimiento imparcial hace sesgada, y uno puede envolver una historia alrededor de él diciendo que el prejuicio proviene de error en la estimación de $\mu$. Sin hacer que la historia sea más específicos, tales como el uso de la descomposición de la varianza, que la narración es técnicamente correcto, pero es sólo una reafirmación de que el hecho de que hubo un cambio a un procedimiento imparcial (mediante la estimación de $\mu$).
El milagro es que el factor de corrección para compensar el sesgo es independiente de la distribución de la i.yo.d) $X_i$. Esta es una propiedad única de la varianza y de mínimos cuadrados de la estimación.
Si conoce la totalidad de la población de la que estamos hablando, la fórmula con la $n$ en el denominador se le dará su verdadera varianza.
Sin embargo, si usted no sabe toda la población, pero sólo tiene una cantidad limitada de muestras aleatorias a partir de ella, es probable que tu muestras tendrán la variación total de la base de la población (es decir, su muestra aleatoria probablemente no incluir a la mayor o menor de los valores en la población). Por lo que la varianza de la muestra aleatoria probablemente será menor que el de la verdadera varianza de la subyacente de la población.
Si desea calcular una estimación de la varianza de la subyacente de la población, se utiliza la fórmula con $n-1$ en el denominador. Esto le da un valor ligeramente mayor que la varianza de la muestra, la cual es, en cierto sentido técnico de la "mejor manera posible" adivinar acerca de lo desconocido subyacente de la población, en determinadas hipótesis. Aproximadamente usted puede pensar en esto como, el $(n-1)$-estimación de la varianza de una muestra aleatoria, es igual de probable que sea demasiado alto como para ser demasiado baja.
Cuando el tamaño de la muestra $n$ es grande, dividiendo por $n$ o $n-1$ no hace una gran diferencia, pero para las pequeñas diferencias pueden ser importantes.
Como un caso extremo, si la muestra sólo un caso de la población, que no dicen nada acerca de lo mucho que los valores en que la población se diferencian el uno del otro-esto se muestra en la varianza de la estimación de la fórmula como una división por cero.
Si supieras el valor medio de la distribución, la varianza se debe dividir por el número de muestras $n$. Por otro lado si usted extrae el valor medio de los datos, está fijando a una relación en sus muestras de $n$ (su suma es $n\bar X$) para que se queden con el equivalente de muestras de #% de #% %.