43 votos

Explicación intuitiva de la corrección de Bessel

Al calcular la varianza de una muestra, un factor de $N-1$ aparece en lugar de $N$ (ver este enlace ). ¿Alguien tiene una forma intuitiva de explicar esto a los estudiantes que necesitan utilizar este hecho pero que quizás no han tomado un curso de estadística?

3 votos

0 votos

Pero la respuesta allí sólo dice que hay un sesgo y aquí está la forma de corregirlo. ¿Hay alguna forma de explicar la corrección de forma intuitiva (sí, es un poco vago)?

3 votos

Hay un intento de explicación intuitiva en la segunda parte de esa respuesta. ¿Ayuda eso?

27voto

Michael Hardy Puntos 128804

http://en.wikipedia.org/wiki/Bessel%27s_correction

El artículo de la Wikipedia al que se ha hecho referencia tiene una sección (escrita por mí) titulada "El origen del sesgo". Lo explica mediante un ejemplo concreto.

Pero también hay que tener en cuenta que corregir el sesgo, cuando se puede hacer, no siempre es una buena idea. Escribí este artículo al respecto: http://arxiv.org/pdf/math/0206006.pdf

2 votos

Gracias. (....línea extra porque el software no permite comentarios cortos....)

4 votos

Uso dólares $$$$

1 votos

(para eludir el requisito de caracteres mínimos) Y aunque no he visto a nadie más utilizarlo, ¡no me opongo a compartirlo con un colaborador (matemático) tan generoso!

26voto

Anthony Shaw Puntos 858

Para mí, la idea principal es que la media de la muestra no es la media de la distribución (o de la población). La media de la muestra está "más cerca" de los datos de la muestra que la media de la distribución, por lo que la varianza calculada es menor.

Supongamos que la media de la distribución es $m_d$ . La suma de $n$ variantes (la muestra) es $n m_s$ , donde $m_s$ es la media de la muestra. Recordemos que la media y la varianza de una suma de variantes son la suma de las medias y la suma de las varianzas de las variantes. Es decir, es, la media de la distribución de la suma de $n$ variantes es $n m_d$ y la varianza de la distribución de la suma de $n$ variantes es $n v_d$ . En otras palabras, $$ \mathrm{E}[(n m_s-n m_d)^2]=n v_d $$ o de forma equivalente, $$ \mathrm{E}[(m_s-m_d)^2]=\frac{1}{n}v_d $$ Calculemos la varianza esperada de la muestra como $$ \begin{align} &\mathrm{E}[v_s]\\ &=\mathrm{E}\left[\frac{1}{n}\sum_{k=1}^n(x_k-m_s)^2\right]\\ &=\mathrm{E}\left[\frac{1}{n}\sum_{k=1}^n\left((x_k-m_d)^2+2(x_k-m_d)(m_d-m_s)+(m_d-m_s)^2\right)\right]\\ &=\mathrm{E}\left[\frac{1}{n}\sum_{k=1}^n\left((x_k-m_d)^2+2(m_s-m_d)(m_d-m_s)+(m_d-m_s)^2\right)\right]\\ &=\mathrm{E}\left[\frac{1}{n}\sum_{k=1}^n\left((x_k-m_d)^2-(m_d-m_s)^2\right)\right]\\ &=v_d-\frac{1}{n}v_d\\ &=\frac{n{-}1}{n}v_d \end{align} $$ Así, $$ v_d=\frac{n}{n{-}1}\mathrm{E}[v_s] $$ Por eso, para estimar la varianza de la distribución, multiplicamos la varianza de la muestra por $\frac{n}{n{-}1}$ . Así, parece que estamos dividiendo por $n{-}1$ en lugar de $n$ .

2 votos

+1, aunque para una explicación intuitiva, podrías haber parado después del primer párrafo.

2 votos

@Henry: sí, lo sé. Como la derivación sigue la idea de mi explicación intuitiva, he pensado en adjuntarla para quien esté interesado.

0 votos

Siento el rollo, pero ¿cómo se justifica la sustitución de $x_k-m_d$ con $m_s-m_d$ ? Quiero decir que tiene sentido que sus expectativas sean iguales, pero estaba un poco confundido.

6voto

Michael Hardy Puntos 128804

La pregunta se refiere a "explicar esto a estudiantes que necesitan usar este hecho pero que quizás no han tomado un curso de estadística". Si son más avanzados que los que entenderán el ejemplo que mencioné que no requiere álgebra más allá de expandir $(a+b)^2$ Quizás merezca la pena analizar un par de puntos de vista más.

Podemos escribir $$ \begin{bmatrix}x_1 \\ \vdots \\ x_n\end{bmatrix} = \begin{bmatrix}\overline{x} \\ \vdots \\ \overline{x} \end{bmatrix} + \begin{bmatrix} x_1 - \overline{x} \\ \vdots \\ x_n - \overline{x}\end{bmatrix}, $$ y observe que los dos vectores que se suman son las proyecciones ortogonales de la suma sobre espacios de dimensiones $1$ y $n-1$ . El valor esperado del primer sumando es $\mu$ veces una columna de $1$ s, y el valor esperado del segundo sumando es $0$ . Así que gira el sistema de coordenadas para que esto se convierta en $$ \begin{bmatrix}u_1 \\ \vdots \\ u_n\end{bmatrix} = \begin{bmatrix} u_1 \\ 0 \\ 0 \\ \vdots \\ 0 \end{bmatrix} + \begin{bmatrix} 0 \\ u_2 \\ u_3 \\ \vdots \\ u_n \end{bmatrix}. $$ El valor esperado de la primera entrada del primer sumando es $\mu\sqrt{n}$ . El valor esperado de cada entrada en el segundo sumando es $0$ . El valor esperado del cuadrado de la norma del segundo vector es $n-1$ veces el valor esperado del cuadrado de cualquiera de sus entradas. Ahí es donde el $n-1$ viene de. Observe que $$ \underbrace{\sum_{i=1}^n (x_i - \overline{x})^2}_{n\text{ terms}} = \underbrace{\sum_{i=2}^n u_i^2}_{n-1\text{ terms}}. $$

Si los estudiantes conocen algo de teoría de la probabilidad, lo anterior también puede explicar por qué $\sum_{i=1}^n (X_i - \overline{X})^2/\sigma^2$ tiene una distribución chi-cuadrado con $n-1$ grados de libertad cuando hay ciertas suposiciones sobre la distribución normal y sobre la independencia. (Utilizo las mayúsculas $X$ esta vez ya que es una variable aleatoria). También puede explicar por qué $\overline{X}$ es realmente independiente de esa variable aleatoria chi-cuadrado.

Otra cosa que a veces es útil para pensar en este tema es la identidad algebraica $$ \sum_{i=1}^n (x_i - \mu)^2 = n(\overline{x} - \mu)^2 + \sum_{i=1}^n (x_i - \overline{x})^2 \text{ where } \overline{x} = \frac{x_1+\cdots+x_n}n. $$ Claramente esto implica que $$ \sum_{i=1}^n (x_i - \mu)^2 \ge \sum_{i=1}^n (x_i - \overline{x})^2 $$ con igualdad si y sólo si $\overline{x}=\mu$ . Esto es, por supuesto, lo mismo que se utilizó en el ejemplo concreto del artículo de la Wikipedia enlazado en mi respuesta anterior, pero enunciado de forma que lo entiendan los estudiantes que saben más álgebra que la expansión de $(a+b)^2$ .

2 votos

Muy buena explicación, el enfoque de Los Ángeles da una perspectiva diferente.

0 votos

@jeremyradcliff : Gracias. $\qquad$

5voto

zyx Puntos 20965

La suma $\sum (x_i - a)^2$ se minimiza cuando $a$ es la media de los $x_i$ 's. La prueba es un simple ejercicio de álgebra (escribir la suma como cuadrática en $a$ ) o de cálculo (diferenciar para obtener $\sum (x_i - a) = 0 $ ).

Por lo tanto, $\sum (x_i - \overline{x})^2 \leq \sum (x_i - \mu)^2$ . La misma desigualdad es válida con promedios en lugar de sumas.

La media del cuadrado $(x_i - \mu)$ es una estimación insesgada de la varianza, ya que cada término tiene esa varianza como valor esperado. Sustituyendo $\mu$ por $\overline{x}$ produce una estimación menor de la varianza, y el valor esperado de esa estimación es menor que el valor esperado del estimador insesgado con $\mu$ . Este último es la varianza, por lo que la expresión con $1/N$ subestimará (por término medio) la varianza.

En resumen: el uso de $\overline{x}$ como sustituto de $\mu$ provoca un sesgo a la baja en la estimación de la varianza por $\sum (x_i - \overline{x})^2 / N$ .

5voto

dwj Puntos 2006

La razón principal es que (¡desconocida por mucha gente!) la corrección de Bessel sólo da un estimador insesgado de la varianza de las muestras con de reemplazo.

El resultado de este muestreo con El reemplazo es que se obtienen "más números iguales" en la muestra que en la población original. Por lo tanto, la varianza de la muestra es menor en promedio en comparación con la población original.

Este sesgo se corrige dividiendo por un número menor ( $n-1$ en lugar de $n$ ) para que la varianza sea mayor, es decir, insesgada de nuevo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X