37 votos

La intuición detrás de la desviación estándar

Estoy tratando de obtener una mejor comprensión intuitiva de la desviación estándar.

Por lo que entiendo, es representativa de la media de las diferencias de un conjunto de observaciones en un conjunto de datos con respecto a la media de ese conjunto de datos. Sin embargo, NO es realmente igual a los promedios de las diferencias, ya que da más peso a las observaciones más alejadas de la media.

Digamos que tengo la siguiente población de valores - $\{1, 3, 5, 7, 9\}$

La media es $5$ .

Si tomo una medida de la dispersión basada en el valor absoluto obtengo

$$ \frac { \sum_ {i = 1}^5|x_i - \mu |}{5} = 2.4$$

Si tomo una medida de la dispersión basada en la desviación estándar obtengo

$$ \sqrt { \frac { \sum_ {i = 1}^5(x_i - \mu )^2}{5}} = 2.83$$

El resultado usando la desviación estándar es mayor, como se esperaba, debido al peso extra que da a los valores más alejados de la media.

Pero si me dijeran que estoy tratando con una población con una media de $5$ y una desviación estándar de $2.83$ ¿cómo podría inferir que la población estaba compuesta por valores algo como el $\{1, 3, 5, 7, 9\}$ ? Parece que la figura de $2.83$ es muy arbitrario... no veo cómo se supone que debe interpretarlo. ¿Incluye $2.83$ ...significa que los valores están muy dispersos o están muy agrupados alrededor de la media...

Cuando se le presenta una declaración de que se trata de una población con un medio de $5$ y una desviación estándar de $2.83$ ¿qué te dice eso sobre la población?

3 votos

Este la pregunta está relacionada (aunque no es idéntica) a stats.stackexchange.com/q/81986/3277 y otro enlazado allí.

1 votos

Indica una distancia "típica" con respecto a la media (la distancia RMS). Lo que la hace "grande" o "pequeña" depende de su criterios. Si se trata de medir tolerancias de ingeniería, puede ser enorme. En otros contextos, la misma desviación típica puede considerarse bastante pequeña.

17voto

means-to-meaning Puntos 1076

Mi intuición es que la desviación típica es: una medida de la dispersión de los datos.

Tienes razón al decir que la amplitud o el estrechamiento dependen de la hipótesis subyacente sobre la distribución de los datos.

Advertencia: Una medida de dispersión es más útil cuando la distribución de los datos es simétrica en torno a la media y tiene una varianza relativamente cercana a la de la distribución Normal. (Esto significa que es aproximadamente Normal).

En el caso de que los datos sean aproximadamente Normales, la desviación típica tiene una interpretación canónica:

  • Región: Media de la muestra +/- 1 desviación típica, contiene aproximadamente el 68% de los datos.
  • Región: Media de la muestra +/- 2 desviaciones estándar, contiene aproximadamente el 95% de los datos.
  • Región: Media de la muestra +/- 3 desviaciones estándar, contiene aproximadamente el 99% de los datos.

(véase el primer gráfico en Wiki )

Esto significa que si sabemos que la media poblacional es 5 y la desviación típica es 2,83 y suponemos que la distribución es aproximadamente Normal, te diría que estoy razonablemente seguro de que si hacemos (muchas) observaciones, sólo el 5% serán menores que 0,4 = 5 - 2*2,3 o mayores que 9,6 = 5 + 2*2,3.

Observa cuál es el impacto de la desviación típica en nuestro intervalo de confianza. (a mayor dispersión, mayor incertidumbre)

Además, en el caso general en el que los datos no son ni siquiera aproximadamente normales, pero sí simétricos, se sabe que existen unas $\alpha$ para lo cual:

  • Región: Media de la muestra +/- $\alpha$ desviación típica, contiene aproximadamente el 95% de los datos

Puede aprender el $\alpha$ de una submuestra, o suponer $\alpha=2$ y esto te da a menudo una buena regla empírica para calcular mentalmente qué observaciones futuras esperar, o cuáles de las nuevas observaciones pueden considerarse atípicas. (No obstante, hay que tener en cuenta la advertencia).

No veo cómo se supone que hay que interpretarlo. ¿Significa 2,83 que los valores están muy dispersos o que están todos muy agrupados en torno a la media?

Supongo que toda pregunta que pregunte "ancho o estrecho", debería contener también: "¿en relación con qué?". Una sugerencia podría ser utilizar como referencia una distribución bien conocida. Dependiendo del contexto, podría ser útil pensar: "¿Es mucho más amplia o estrecha que una Normal/Poisson?".

EDITAR: Basándome en una pista útil en los comentarios, un aspecto más sobre la desviación estándar como medida de distancia.

Otra intuición de la utilidad de la desviación típica $s_N$ es que es una medida de distancia entre los datos de la muestra $x_1,… , x_N$ y su media $\bar{x}$ :

$s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}$

A modo de comparación, el error cuadrático medio (ECM), una de las medidas de error más populares en estadística, se define como:

$\operatorname{MSE}=\frac{1}{n}\sum_{i=1}^n(\hat{Y_i} - Y_i)^2$

Cabe preguntarse ¿por qué la función de distancia anterior? ¿Por qué las distancias al cuadrado, y no las distancias absolutas, por ejemplo? ¿Y por qué tomamos la raíz cuadrada?

Disponer de funciones cuadráticas de distancia, o de error, tiene la ventaja de que podemos diferenciarlas y minimizarlas fácilmente. En cuanto a la raíz cuadrada, contribuye a la interpretabilidad, ya que convierte el error a la escala de los datos observados.

0 votos

¿Por qué dice que una medida de dispersión es más "útil" cuando los datos son normales? Me parece que cualquier conjunto de datos tiene una dispersión y la desviación típica es un resumen de la dispersión, aunque no refleje la forma de la dispersión.

1 votos

Claro, tienes razón. Pero yo no estaba afirmando que la desviación estándar depende de la forma de la distribución de ninguna manera. Simplemente señalaba que SI tienes algún conocimiento sobre la forma (o estás preparado para hacer esta suposición), suele ser una información mucho más útil. Del mismo modo, la media muestral es un buen descriptor de los datos, SI se pueden hacer ciertas suposiciones generales sobre la distribución.

0 votos

Mi razón favorita para usar el cuadrado en lugar del valor absoluto es que así es un logaritmo de probabilidad de alguna gaussiana. Así que si crees que los errores son gaussianos por naturaleza, y que los bits son una buena forma de medir la información, entonces tiene sentido utilizar el error al cuadrado.

6voto

Kevin Zink Puntos 81

Puede ayudar darse cuenta de que la media es análoga a la centro de masa . La varianza es el momento de inercia . La desviación típica es el radio de giro .

Para una perspectiva histórica, eche un vistazo a:

George Airy (1875) Sobre la teoría algebraica y numérica de los errores de observación y la combinación de observaciones

Karl Pearson (1894) Contribuciones a la teoría matemática de la evolución.

Este gráfico de Airy 1875 muestra las distintas medidas de desviación que se pueden interconvertir fácilmente (página 17). La desviación típica se denomina "error cuadrático medio". También se discute en las páginas 20-21 y se justifica su uso en la página 48, mostrando que es más fácil de calcular a mano porque no hay necesidad de calcular por separado los errores negativos y positivos. El término desviación típica fue introducido por Pearson en el artículo citado anteriormente en la página 75.

enter image description here

Por cierto: Obsérvese que la utilidad de la desviación típica depende de la aplicabilidad de la "ley de los errores", también conocida como "curva normal", que surge de "un gran número de causas independientes de error" (Airy 1875 pg 7). No hay razón para esperar que las desviaciones de la media de un grupo de cada individuo sigan esta ley. En muchos casos, para los sistemas biológicos es mejor suponer una distribución logarítmica normal que normal. Véase:

Limpert et al (2001) Distribuciones logarítmicas normales en las ciencias: Claves y pistas

Además, cabe preguntarse si es adecuado tratar la variación individual como ruido, ya que el proceso de generación de datos actúa a nivel de individuo y no de grupo.

0 votos

Para una distribución normal estándar, con media $0$ y varianza $1$ el "error probable" corresponde a la distancia de la media al tercer cuartil, es decir, aproximadamente $0.6745$ el "error medio absoluto" a $\sqrt{\frac2\pi} \approx 0.7979$ y el "error cuadrático medio" a la desviación típica de $1$ . (El "módulo" era $\sqrt2 \approx 1.4142$ veces la desviación típica, rara vez se ve ahora, pero simplificaba marginalmente la función de densidad normal). Se obtendrían valores diferentes para distribuciones con formas diferentes

4voto

Zizzencs Puntos 1358

En efecto, la desviación típica da más peso a los más alejados de la media, porque es la raíz cuadrada de la media de las distancias al cuadrado. Las razones para utilizarla (en lugar de la desviación absoluta media que propones, o la desviación absoluta mediana, que se utiliza en estadística robusta) se deben en parte a que el cálculo es más fácil con polinomios que con valores absolutos. Sin embargo, a menudo queremos hacer hincapié en los valores extremos.

En cuanto a su pregunta sobre el significado intuitivo, se desarrolla con el tiempo. Tienes razón en que más de un conjunto de números puede tener la misma media y sd; esto se debe a que la media y sd son sólo dos piezas de información, y el conjunto de datos puede ser de 5 piezas (como 1,3,5,7,9) o mucho más.

Que una media de 5 y una sd de 2,83 sea "amplia" o "estrecha" depende del campo en el que se trabaje.

Cuando sólo se tienen 5 números, es fácil mirar la lista completa; cuando se tienen muchos números, formas más intuitivas de pensar en la dispersión incluyen cosas como la resumen de cinco números o, mejor aún, gráficos como un diagrama de densidad.

3voto

SomeEE Puntos 646

La desviación típica mide la distancia de la población respecto a la media como variables aleatorias.

Supongamos que sus 5 números tienen la misma probabilidad de haber ocurrido, de modo que cada uno tiene una probabilidad de 0,20. Esto se representa mediante la variable aleatoria $X: [0,1] \rightarrow \mathbb{R}$ dada por

$$X(t) = \begin{cases} 1 & 0 \leq t < \frac{1}{5} \\ 3 & \frac{1}{5} \leq t < \frac{2}{5}\\ 5 & \frac{2}{5} \leq t < \frac{3}{5}\\ 7 & \frac{3}{5} \leq t < \frac{4}{5}\\ 9 & \frac{4}{5} \leq t \leq 1 \end{cases}$$

La razón por la que pasamos a las funciones y a la teoría de la medida es que necesitamos una forma sistemática de discutir cómo dos espacios de probabilidad son iguales hasta los sucesos que tienen una probabilidad nula de ocurrir. Ahora que hemos pasado a las funciones, necesitamos un sentido de la distancia.

Existen muchos sentidos de distancia para las funciones, entre los que destacan las normas $$||Y||_p = \left(\int_{0}^1|Y(t)|^pdt\right)^{1/p}$$ para $Y: [0,1] \rightarrow \mathbb{R}$ et $1 \leq p < \infty$ inducen las funciones de distancia $d_p(Y,Z) = ||X - Z||_p$ .

Si tomamos el $p=1$ norma obtenemos la desviación ingenua del valor absoluto que has mencionado: $$d_1(X,5) = ||X - \underline{5} ||_1 = 2.4. $$ Si tomamos el $p=2$ obtenemos la desviación típica habitual $$d_2(X,5) = ||X-\underline{5}||_2 = 2.83.$$

Aquí $\underline{5}$ denota la función constante $t \mapsto 5$ .

Entender el significado de la desviación estándar es realmente entender el significado de la función distancia $d_2$ y entender por qué es, en muchos sentidos, la mejor medida de distancia entre funciones.

0 votos

Esta explicación incluye algunas construcciones que no parecen "intuitivas". La principal es la aparición injustificada de una función definida en $[0,1]$ un intervalo que no tiene nada que ver con la configuración. (Es natural definir $X:\{1,3,5,7,9\}\to\mathbb{R}$ como $X(i)=i$ donde el álgebra es el conjunto de potencias de $\{1,3,5,7,9\}$ .) Además, la interpretación de expresiones como " $||X-5||_1$ " es algo problemático porque " $5$ "representa un número, la media de la población, no una variable aleatoria. Al final, después de introducir toda esta maquinaria, la pregunta se replantea pero no se responde.

0 votos

Sí, la variable aleatoria que has enumerado es estándar para aquellos que se sientan cómodos con la teoría de las medidas. Esperaba reducirlo a la comprensión de las funciones y la integración para las personas que sólo tienen conocimientos de cálculo. Voy a reescribir la media como una función.

0 votos

Además, al tratarse de una pregunta reformulada, ¿sugiere incluir comentarios sobre por qué $d_2$ ¿es la mejor medida de distancia entre funciones?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X