245 votos

Explicación intuitiva para dividir por $n-1$ al calcular la desviación estándar?

Hoy me han preguntado en clase por qué se divide la suma del error cuadrático por $n-1$ en lugar de con $n$ al calcular la desviación estándar.

Dije que no voy a responder en clase (ya que no quería entrar en los estimadores insesgados), pero después me pregunté es que hay ¡¿una explicación intuitiva para esto?!

47 votos

Me gustaría citar esta frase del libro Recetas numéricas : "...si la diferencia entre $n$ y $n-1$ Si alguna vez te importa, es probable que no estés haciendo nada bueno, por ejemplo, tratando de fundamentar una hipótesis dudosa con datos marginales".

18 votos

Una explicación realmente elegante e intuitiva se presenta aquí (debajo de la prueba) es.wikipedia.org/wiki/ La idea básica es que sus observaciones van a estar, naturalmente, más cerca de la media de la muestra que de la media de la población.

13 votos

@Tal, Esta es la razón por la que las escuelas apestan. Les preguntas "por qué este ?", y ellos responden "sólo hay que memorizarlo".

156voto

Auron Puntos 2123

La desviación estándar calculada con un divisor de $n-1$ es una desviación estándar calculada a partir de la muestra como una estimación de la desviación estándar de la población de la que se extrajo la muestra. Dado que los valores observados están, por término medio, más cerca de la media de la muestra que de la media de la población, la desviación típica que se calcula utilizando las desviaciones de la media de la muestra subestima la desviación típica deseada de la población. Utilizando $n-1$ en lugar de $n$ como divisor lo corrige haciendo el resultado un poco más grande.

Obsérvese que la corrección tiene un efecto proporcional mayor cuando $n$ es pequeño que cuando es grande, que es lo que queremos porque cuando n es mayor la media de la muestra es probable que sea un buen estimador de la media de la población.

Cuando la muestra es toda la población utilizamos la desviación estándar con $n$ como divisor porque la media de la muestra es media de la población.

(Observo entre paréntesis que nada que comience con "segundo momento recentrado en torno a una media conocida y definida" va a satisfacer la petición del interrogador de una explicación intuitiva).

27 votos

No confundamos "intuitivo" con "no técnico".

70 votos

@Michael, Esto no explica Por qué usamos n1 en lugar de n2 (o incluso n3 )?

3 votos

@Pacerier Echa un vistazo a la respuesta de Whuber a continuación para obtener detalles sobre ese punto. En esencia, la corrección es n-1 en lugar de n-2, etc, porque la corrección n-1 da resultados que se acercan mucho a lo que necesitamos. Aquí se muestran correcciones más exactas: es.wikipedia.org/wiki/Estimación_insesgada_de_desviación_estándar

146voto

Nelson Puntos 777

Por definición, la varianza se calcula tomando la suma de las diferencias al cuadrado con respecto a la media y dividiéndola por el tamaño. Tenemos la fórmula general

$\sigma^2= \frac{\sum_{i}^{N}(X_i-\mu)^2}{N}$ donde $\mu$ es la media y $N$ es el tamaño de la población.

Según esta definición, la varianza de una muestra (por ejemplo, la muestra $t$ ) también debe calcularse de esta manera.

$\sigma^2_t= \frac{\sum_{i}^{n}(X_i-\overline{X})^2}{n}$ donde $\overline{X}$ es la media y $n$ es el tamaño de esta pequeña muestra.

Sin embargo, por la varianza de la muestra $S^2$ nos referimos a un estimador de la varianza de la población $\sigma^2$ . ¿Cómo podemos estimar $\sigma^2$ sólo utilizando los valores de la muestra?

Según las fórmulas anteriores, la variable aleatoria $X$ se desvía de la media de la muestra $\overline{X}$ con la varianza $\sigma^2_t$ . La media de la muestra $\overline{X}$ también se desvía de $\mu$ con la varianza $\frac{\sigma^2}{n}$ porque la media de la muestra obtiene valores diferentes de una muestra a otra y es una variable aleatoria con media $\mu$ y la varianza $\frac{\sigma^2}{n}$ . (Se puede probar fácilmente).

Por lo tanto, aproximadamente, $X$ debe desviarse de $\mu$ con una varianza que implica dos variantes por lo que se suman estas dos y se obtiene $\sigma^2=\sigma^2_t+\frac{\sigma^2}{n}$ . Resolviendo esto, obtenemos $\sigma^2=\sigma^2_t \times\frac{n}{n-1}$ . Sustitución de $\sigma^2_t$ da nuestro estimador de la varianza de la población:

$S^2= \frac{\sum_{i}^{n}(X_i-\overline{X})^2}{n-1}$ .

También se puede demostrar que $E[S^2]=\sigma^2$ es cierto.

0 votos

Espero que no sea demasiado trivial: ¿es el hecho de que la media muestral converge a ND( $\mu$ , $\frac{\sigma}{\sqrt{n}}$ ) a medida que n se hace arbitrariamente grande la razón por la que la media muestral se desvía de la media real con varianza $\frac{\sigma^2}{n}$ ?

25 votos

Esta es una explicación mejor que las otras porque muestra las ecuaciones y derivaciones en lugar de simplemente ir yagga yagga con términos estadísticos.

2 votos

@sevenkul ¿podemos ver esto visualmente? cuando dices, X debe desviarse de $\mu$ con esa variación neta, estoy perdido en la visualización de que

69voto

jldugger Puntos 7490

Una común es que la definición de varianza (de una distribución) es el segundo momento recentrado alrededor de un conocido, definido media, mientras que el estimador utiliza una estimado medio. Esta pérdida de un grado de libertad (dada la media, se puede reconstituir el conjunto de datos con el conocimiento de sólo $n-1$ de los valores de los datos) requiere el uso de $n-1$ en lugar de $n$ para "ajustar" el resultado.

Esta explicación es coherente con las varianzas estimadas en el ANOVA y el análisis de componentes de la varianza. En realidad es un caso especial.

La necesidad de hacer algunos El ajuste que infla la varianza puede, creo, hacerse intuir con un argumento válido que no sea sólo ex post facto agitando las manos. (Recuerdo que Student puede haber presentado un argumento de este tipo en su artículo de 1908 sobre la prueba t). Por qué el ajuste de la varianza debe ser exactamente un factor de $n/(n-1)$ es más difícil de justificar, sobre todo si se tiene en cuenta que la DS ajustada es no un estimador insesgado. (Es simplemente la raíz cuadrada de un estimador insesgado de la varianza. Ser insesgado no suele sobrevivir a una transformación no lineal). Así que, de hecho, el ajuste correcto de la DS para eliminar su sesgo es no un factor de $\sqrt{n/(n-1)}$ en absoluto.

Algunos libros de texto introductorios ni siquiera se molestan en introducir la sd ajustada: enseñan una fórmula (dividir por $n$ ). Al principio reaccioné de forma negativa al enseñar a partir de un libro de este tipo, pero acabé apreciando su sabiduría: para centrarse en los conceptos y las aplicaciones, los autores eliminan todas las sutilezas matemáticas innecesarias. Resulta que nada se perjudica y nadie se engaña.

2 votos

Gracias Whuber. Tengo que enseñar a los alumnos con la corrección n-1, por lo que dividir en n solo no es una opción. Como se ha escrito antes de mí, para mencionar la conexión con el segundo momento no es una opción. Aunque mencionar como la media ya fue estimada dejándonos con menos "datos" para la sd - eso es importante. En cuanto al sesgo de la sd - recordaba haberlo encontrado - gracias por hacernos ver ese punto. Saludos, Tal

3 votos

@Tal Estaba escribiendo en tu lenguaje, no en el de tus alumnos, porque confío en que eres plenamente capaz de traducirlo a lo que sabes que les llegará. En otras palabras, interpreté "intuitivo" en tu pregunta como intuitivo para usted .

1 votos

Hola Whuber. Gracias por el voto de confianza :). El suelto del grado de libertad para la estimación de la esperanza es uno que estaba pensando en usar en clase. El problema es que el concepto de "grados de libertad" por sí mismo es uno que necesita conocimiento/intuición. Pero combinarlo con algunas de las otras respuestas dadas en este hilo será útil (para mí, y espero que para otros en el futuro). Saludos, Tal

20voto

ESRogs Puntos 1381

Se trata de una intuición total, pero la respuesta más sencilla es que se trata de una corrección realizada para que la desviación estándar de la muestra de un elemento sea indefinida en lugar de 0.

14 votos

¿Por qué no, entonces, utilizar $\frac{n}{n^2-1}$ o incluso $\frac{1}{\exp(1)-\exp(1/n)}$ como correcciones? :-)

2 votos

@whuber Parsimonia (-;

4 votos

$\frac{1}{n-1}$ es aún más "parsimonioso". :-)

18voto

Berek Bryan Puntos 349

Puede obtener una comprensión más profunda de la $n-1$ término a través de la geometría por sí sola, no sólo porque no es $n$ pero por qué toma exactamente esta forma, pero es posible que primero tenga que construir su intuición hacer frente a $n$ -geometría dimensional. Sin embargo, a partir de ahí, es un pequeño paso hacia una comprensión más profunda de los grados de libertad en los modelos lineales (es decir, df del modelo y df residual). Creo que hay pocas dudas de que Fisher pensó de esta manera. Aquí hay un libro que lo construye gradualmente:

Saville DJ, Wood GR. Métodos estadísticos: el enfoque geométrico . 3ª edición. New York: Springer-Verlag; 1991. 560 páginas. 9780387975177

(Sí, 560 páginas. He dicho gradualmente).

1 votos

Gracias onestop - no pensé que habría una respuesta desde esa dirección. ¿Hay alguna forma de resumir la intuición, o es probable que eso no sea posible? Saludos, Tal

0 votos

Yo no pude hacerlo, pero un crítico de libros resumió el enfoque en un párrafo en Amer. Stat. en 1993: jstor.org/stable/2684984 . Sin embargo, no estoy seguro de que sea realmente práctico utilizar este enfoque con tus alumnos a menos que lo adoptes para todo el curso.

3 votos

¿Puede resumir un poco la intuición en lugar de limitarse a una referencia del libro?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X