¿Qué es una desviación estándar, cómo se calcula y cuál es su utilidad en estadística?
Respuestas
¿Demasiados anuncios?La desviación estándar es un número que representa la "dispersión" de un conjunto de datos. Existen otras medidas de dispersión, como el rango y la varianza.
A continuación se presentan algunos ejemplos de conjuntos de datos y sus desviaciones estándar:
[1,1,1] standard deviation = 0 (there's no spread)
[-1,1,3] standard deviation = 1.6 (some spread)
[-99,1,101] standard deviation = 82 (big spead)
Los conjuntos de datos anteriores tienen la misma media.
Desviación significa "distancia de la media".
"Estándar" significa aquí "estandarizado", lo que significa que la desviación estándar y la media están en las mismas unidades, a diferencia de la varianza.
Por ejemplo, si la altura media es de 2 metros la desviación estándar podría ser de 0,3 metros mientras que la varianza sería de 0,09 metros al cuadrado .
Es conveniente saber que al menos el 75%. de los puntos de datos siempre se encuentran dentro de las 2 desviaciones estándar de la media (o alrededor del 95% si la distribución es Normal).
Por ejemplo, si la media es 100 y la desviación estándar es 15, al menos el 75% de los valores están entre 70 y 130.
Si la distribución resulta ser Normal, entonces el 95% de los valores están entre 70 y 130.
En general, las puntuaciones de los tests de CI se distribuyen normalmente y tienen una media de 100. Una persona "muy brillante" está dos desviaciones estándar por encima de la media, lo que significa una puntuación de 130 en el test de CI.
Una cita de Wikipedia .
Muestra el grado de variación con respecto a la "media" (valor esperado/presupuestado). Una desviación estándar baja indica que los puntos de datos tienden a estar muy cerca de la media, mientras que una desviación estándar alta indica que los datos están repartidos en un amplio rango de valores.
Al describir una variable, solemos resumirla mediante dos medidas: una medida de centro y una medida de dispersión. Las medidas comunes del centro son la media, la mediana y la moda. Las medidas comunes de dispersión incluyen la varianza y el rango intercuartil.
La varianza (representada por la sigma griega minúscula elevada a la potencia dos) se utiliza habitualmente cuando se informa de la media. La varianza es la desviación media al cuadrado de la variable. La desviación se calcula restando la media de cada observación. Se eleva al cuadrado porque, de lo contrario, la suma sería cero y la elevación al cuadrado elimina este problema, manteniendo el tamaño relativo de las desviaciones. El problema de utilizar la variación como medida de dispersión es que está en unidades al cuadrado. Por ejemplo, si nuestra variable de interés fuera la altura medida en pulgadas, la varianza se presentaría en pulgadas al cuadrado, lo que no tiene mucho sentido. La desviación estándar (representada por la sigma griega minúscula) es la raíz cuadrada de la varianza y devuelve la medida de dispersión a las unidades originales. Es mucho más intuitiva y, por tanto, más popular que la varianza.
Cuando se utiliza la desviación estándar, hay que tener cuidado con los valores atípicos, ya que sesgarán la desviación estándar (y la media), ya que no son medidas resistentes de la dispersión. Un ejemplo sencillo ilustrará esta propiedad. La media de mis terribles puntuaciones de bateo de cricket de 13, 14, 16, 23, 26, 28, 33, 39 y 61 es de 28,11. Si consideramos que 61 es un valor atípico y lo eliminamos, la media sería 24.
Así es como yo respondería a esta pregunta utilizando un diagrama.
Digamos que pesamos 30 gatos y calculamos el peso medio. Entonces producimos un gráfico de dispersión, con el peso en el eje Y y la identidad del gato en el eje X. El peso medio puede dibujarse como una línea horizontal. A continuación, podemos dibujar líneas verticales que conecten cada punto de datos con la línea media: son las desviaciones de cada punto de datos con respecto a la media, y las llamamos residuos. Ahora bien, estos residuos pueden ser útiles porque nos pueden decir algo sobre la dispersión de los datos: si hay muchos residuos grandes, entonces los gatos varían mucho en masa. A la inversa, si los residuos son principalmente pequeños, entonces los gatos están bastante agrupados alrededor del peso medio. Así que si pudiéramos tener alguna métrica que nos dijera la media longitud de un residuo en este conjunto de datos, esto sería una forma práctica de denotar cuánta dispersión hay en los datos. La desviación estándar es, efectivamente, la longitud del residuo medio.
A partir de ahí, yo daría el cálculo de la d.s., explicando por qué se eleva al cuadrado y luego a la raíz cuadrada (me gusta la explicación breve y dulce de Vaibhav). Luego mencionaría los problemas de los valores atípicos, como hace Graham en su último párrafo.
- Ver respuestas anteriores
- Ver más respuestas