58 votos

Desviación típica de la muestra frente a desviación típica de la población

Tengo una calculadora gráfica HP 50g y la estoy utilizando para calcular la desviación típica de unos datos. En el cálculo estadístico hay un tipo que puede tener dos valores:

Muestra Población

No lo cambié, pero seguía obteniendo resultados erróneos para la desviación estándar. Cuando lo cambié al tipo "Población", ¡empecé a obtener resultados correctos!

¿Por qué? Que yo sepa, sólo hay un tipo de desviación típica: calcular la media cuadrática de los valores.

¿Me he perdido algo?

2 votos

En pregunta @ CrossValidated.

106voto

Martin OConnor Puntos 116

De hecho, aquí existen dos fórmulas diferentes para la desviación típica: La desviación típica de la población $\sigma$ y la desviación típica de la muestra $s$ .

Si $x_1, x_2, \ldots, x_N$ denotan todos $N$ valores de una población, entonces la desviación típica (poblacional) es $$\sigma = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2},$$ donde $\mu$ es la media de la población.

Si $x_1, x_2, \ldots, x_N$ denotan $N$ valores de una muestra, entonces la desviación típica (de la muestra) es $$s = \sqrt{\frac{1}{N-1} \sum_{i=1}^N (x_i - \bar{x})^2},$$ donde $\bar{x}$ es la media de la muestra.

La razón del cambio de fórmula con la muestra es la siguiente: Cuando se calcula $s$ que utiliza normalmente $s^2$ (la varianza de la muestra) para estimar $\sigma^2$ (la varianza de la población). El problema, sin embargo, es que si no sabes $\sigma$ generalmente no se conoce la media de la población $\mu$ por lo que hay que utilizar $\bar{x}$ en el lugar de la fórmula donde normalmente se utilizaría $\mu$ . Esto introduce un ligero sesgo en el cálculo: Puesto que $\bar{x}$ se calcula a partir de la muestra, los valores de $x_i$ están por término medio más cerca de $\bar{x}$ de lo que serían para $\mu$ por lo que la suma de cuadrados $\sum_{i=1}^N (x_i - \bar{x})^2$ resulta ser menor por término medio que $\sum_{i=1}^N (x_i - \mu)^2$ . Sucede que ese sesgo puede corregirse dividiendo por $N-1$ en lugar de $N$ . (Demostrar esto es un ejercicio estándar en un curso de pregrado avanzado o de postgrado inicial en teoría estadística). El término técnico aquí es que $s^2$ (debido a la división por $N-1$ ) es un estimador insesgado de $\sigma^2$ .

Otra forma de verlo es que con una muestra tienes $N$ informaciones independientes. Sin embargo, dado que $\bar{x}$ es la media de los $N$ piezas, si sabes $x_1 - \bar{x}, x_2 - \bar{x}, \ldots, x_{N-1} - \bar{x}$ puedes averiguar qué $x_N - \bar{x}$ es. Así que cuando estás cuadrando y sumando los residuos $x_i - \bar{x}$ en realidad sólo hay $N-1$ información independiente. Así que en ese sentido tal vez dividiendo por $N-1$ en lugar de $N$ tiene sentido. El término técnico aquí es que hay $N-1$ grados de libertad en los residuos $x_i - \bar{x}$ .

Para más información, véase el artículo de Wikipedia sobre el desviación típica de la muestra .

0 votos

¿Cómo funciona la fórmula $\frac{ \sigma}{\sqrt{n}}$ proceden de $s = \sqrt{\frac{1}{N-1} \sum_{i=1}^N (x_i - \bar{x})^2}$ ?

6 votos

@Imray: No es así. Se refieren a dos cosas distintas. La expresión $\sigma/\sqrt{n}$ es la desviación típica de la media $\bar{x}$ de los datos de la muestra. La expresión $s = \sqrt{\frac{1}{N-1} \sum_{i=1}^N (x_i - \bar{x})^2}$ es la desviación típica de los datos de la muestra (por tanto, no la media de los datos de la muestra).

5 votos

"Dado que x¯ se calcula a partir de la muestra, los valores de xi están en promedio más cerca de x¯ de lo que estarían de " -- oh wow, gracias. He leído varias veces la explicación basada en df, pero esto de repente lo aclara intuitivamente de otra manera.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X