6 votos

Intuición para Desviación Estándar

He estado estudiando estadísticas descriptivas y me está costando entender la intuición real detrás de la desviación estándar. Estoy tratando de tener una sensación práctica al respecto, así que estoy intentando sacar conclusiones de una distribución de 20 números, del 1 al 20. Sé que la media es 10.5 y la desviación promedio absoluta es 5, lo cual es bastante intuitivo.

Ahora, al tomar la desviación estándar obtengo el valor 5.77 lo cual aún tiene sentido si pienso en ello como la desviación euclidiana promedio de la media. Así que me imagino sumando distancias ortogonales y luego promediándolas $\frac{\sum(x_i-\bar x)^2}{n}$ y al final sacando la raíz cuadrada de eso para obtener la distancia promedio real. La fórmula tiene sentido desde una perspectiva euclidiana. Así que dicho todo esto, mis preguntas:

1) ¿Por qué una distancia euclidiana promedio sería más precisa que una desviación absoluta de la media? De hecho, creo que la desviación promedio absoluta es más precisa ya que no infiere ninguna dirección de los valores. Al tomar la distancia euclidiana, estoy prácticamente diciendo que cada valor está colocado en un ángulo de 90° entre sí. Eso no suena correcto. Entonces, ¿por qué la distancia euclidiana? (Soy consciente de este artículo, pero si alguien realmente pudiera explicar qué es eficiencia, sería de gran ayuda: https://www.leeds.ac.uk/educol/documents/00003759.htm)

2) Si la ventaja de usar SD es debido a toda la matemática que hemos desarrollado alrededor de las formas de distribución normal (68%, 95%, 99,7%...) ¿no sería mejor simplemente reescribir ese modelo con la nueva desviación promedio?

3) Probablemente postearé otra pregunta en el futuro sobre esto, pero al calcular el error estándar, esta desviación estándar parece empeorar aún más, ya que necesitamos correcciones para poblaciones finitas. ¿Tiene esto algún sentido?

1 votos

Vale la pena leer math.stackexchange.com/questions/717339/why-is-variance-squared y stats.stackexchange.com/questions/118/… - a menudo es la varianza la que tiene las propiedades agradables; su raíz cuadrada (la desviación estándar) luego se beneficia de estar en las mismas unidades que los datos originales y, por lo tanto, se convierte en un parámetro de escala

0 votos

Creo que la publicación lamentablemente eliminada de @ThomasAndrews plantea puntos interesantes, al igual que el enlace en el comentario de Henry. Además, en general, cuando se habla de 'intuición', hay que darse cuenta de que lo que no impacta a una persona podría ser una revelación impresionante para otra. La intuición es opinión. Por lo tanto, puede que no sea productivo discutir sobre la validez de la intuición.

4voto

BruceET Puntos 7117

Dado una muestra $X_1, X_2, \dots, X_n,$ supongamos que hacemos un 'stripchart' (también llamado 'dotplot') de los datos. A continuación se muestran los stripcharts de tres muestras de tamaño $n=5:$ $$X = (0, 2, 2, 2, 4),\, Y = (0, 1, 2, 3, 4),\, Z = (0, 0, 2, 4, 4).$$

ingresar descripción de la imagen aquí

La media muestral $\bar X = \frac{1}{n}\sum_{i=1}^n X_i$ puede ser considerada como el 'punto de equilibrio' o el 'centro de gravedad' del stripchart de una muestra $X_i$ (donde todos los puntos tienen el mismo peso). La media muestral $\bar X$ también es una buena estimación de la media $\mu_X$ de la población de la cual la muestra fue seleccionada aleatoriamente. En particular, $E(\bar X) = \mu_X.$ En la figura, $\bar X = \bar Y = \bar Z = 2.$

Una forma de medir la dispersión o variabilidad de una muestra es a través de su rango $R = \max(X_i) - \min(X_i).$ Para nuestros tres pequeños conjuntos de datos $R_X = R_Y = R_Z = 4,$ así que el rango de la muestra no es una medida efectiva de dispersión para distinguir entre nuestros tres conjuntos de datos.

No obstante, parece intuitivamente claro que los $Z_i$s son los más dispersos y los $X_i$s son los menos dispersos. Como un modelo físico piensa en un eje vertical en 2, alrededor del cual se va a girar un stripchart. Los momentos de inercia aumentan a medida que nos movemos de los $X_i$ a los $Y_i$ a los $Z_i.$ A grandes rasgos, eso significa que los $Z_i$ hacen el mejor volante.

Una medida de dispersión que se asemeja estrechamente a la definición de momento de inercia es la varianza muestral. Es aproximadamente el promedio de las desviaciones al cuadrado respecto de la media: $S_X^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar X)^2.$ Para nuestros tres ejemplos, $S_X^2 = 2.0,\, S_Y^2 = 2.5,\,$ y $S_Z^2 = 4.$ Así que las varianzas aumentan adecuadamente a medida que nos movemos de los $X_i$ a los $Y_i$ a los $Z_i.$ [La raíz cuadrada positiva $S_X$ de la varianza muestral $S_X^2$ es llamada 'desviación estándar muestral', lo que ayuda a explicar la notación.]

Una razón para utilizar $n-1$ en lugar de $n$ en el denominador de la varianza muestral es hacer de $S_X^2$ un buen estimador de la varianza de la población $\sigma_X^2.$ En particular, $E(S_X^2) = \sigma_X^2.$ [Hablando en términos generales, otra razón es que $X$ puede ser visto como un vector en un espacio de 5 dimensiones; una dimensión se "usa" para estimar $\mu$ por $\bar X,$ dejando $n-1 = 4$ dimensiones para estimar $\sigma^2.$ Para hacer esta idea precisa se necesita un recorrido complementario por el álgebra lineal que no haré aquí.]

Nota: Una variedad de otras posibles medidas de dispersión de la muestra, incluyendo la que mencionas, han sido promovidas por practicantes respetados. Algunas de ellas usan desviaciones absolutas del centro (a veces llamadas 'discrepancias'). Ejemplos son $\frac{1}{n}\sum_{i=1}^n |X_i - \bar X|,\; \frac{1}{n}\sum_{i=1}^n |X_i - H_X|,$ y la mediana muestral de $|X_i - H_X|,$ donde $H_X$ es la mediana muestral. En varios momentos y lugares, ambos de los primeros dos han sido llamados 'MAD' (por Media Absoluta de la Desviación).

Aunque cada uno de ellos puede tener ventajas en aplicaciones específicas, ninguno de ellos se usa regularmente en gran medida. Las objeciones incluyen la dificultad de hacer pruebas (los valores absolutos pueden llevar a la necesidad de considerar casos) y la falta de una teoría de distribución accesible (excepto tal vez a través de la simulación). [Por el contrario, para datos normales, $\frac{(n-1)S_X^2}{\sigma_X^2} \sim \mathsf{Chisq(\nu = n-1)},$ una familia de distribuciones muy tabuladas y programadas.]

También, las varianzas poblacionales tienen la ventaja de que $Var(X + Y) = Var(X) + Var(Y),$ siempre que $X$ e $Y$ no estén correlacionados.

0 votos

Gracias por intentar responder a esta pregunta, y estoy de acuerdo con todo lo que dijiste. Pero cuando dices "Una medida de dispersión que se asemeja estrechamente a la definición de momento de inercia es la varianza de la muestra.", también creo que 'MAD' también lo hace (como claramente indicaste al final) y lo hace $\frac{1}{n}\sum{(x_i-\mu)^k}$ donde k es cualquier número natural y $\sigma = \sqrt[k]{\sigma^k}$. Todavía me resulta confuso por qué elegir uno u otro. Simplemente la simplicidad para cálculos futuros no me convence.

0 votos

Agregando a mi último comentario: Cuando k=1 tenemos MAD. Cuando k=2 tenemos varianza. ¿Por qué no k=3 entonces?

0 votos

Solo $k=2$ está relacionado con la definición física del momento de inercia; $k = 3$ mide asimetría, no dispersión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X