4 votos

La desviación estándar "correcta"

Esto puede terminar siendo una cuestión más científica acerca de las mejores prácticas que cualquier otra cosa, pero creo que este es el derecho de la comunidad a pedir a obtener la visión que estoy buscando.


Decir que tengo dos pequeños cuadrados de los widgets de hecho de un material que se encoge cuando se moja. Quiero saber por cuánto. Yo mido la longitud de los widgets a lo largo de dos líneas cada uno (porque no son de forma perfectamente y mi técnica de medición no es perfecto), antes y después de la inmersión con agua. Vuelvo con los datos que se parece a esto:

Widget  Measurement  Before  After  Shrinkage
1       1            1.898   1.722  0.176
1       2            1.904   1.737  0.167
2       1            2.003   1.763  0.240
2       2            2.029   1.843  0.186

Ahora, puedo calcular la media general, sin preocuparse demasiado en este caso, dado que la media de los dos medios es la misma que la media de todos los puntos que se fue en el tiempo como cada medio tiene el mismo número de muestras, que en este caso lo hacen. Así:

avg(0.176,0.167,0.240,0.186) = 0.192 = avg(avg(0.176,0.167),avg(0.240,0.186))

Sin embargo, este tipo de relación es no verdadero para la desviación estándar. Hay varios enfoques que de inmediato se presentan a mí como opciones para encontrar una desviación estándar total para este conjunto de datos:

  1. El uso de todos los datos a la vez: sd(0.176,0.167,0.240,0.186) = 0.033
  2. Obtener una desviación estándar para cada widget, y el promedio de ellos: avg(sd(0.176,0.167),sd(0.240,0.186)) = 0.022
  3. Obtener el promedio de cada widget, y tomar la desviación estándar de los dos: sd(avg(0.176,0.167),avg(0.240,0.186)) = 0.029

Ahora, tal vez es sólo la confusión de mi parte sobre el significado de una desviación estándar, pero no sé cuál es el enfoque sería correcto usar aquí (para el propósito de, por ejemplo, poner barras de error en un gráfico). Intuitivamente me siento atraído por el primer método, ya que parece incorporar la mayor cantidad de información acerca de los datos en el cálculo de desviación estándar. Yo soy cuidadoso, sin embargo, que esto podría ser implícitamente a hacer algunas hipótesis acerca de la estructura de los datos, tales como la homogeneidad, que en realidad no puede sostener.

¿Qué enfoque es generalmente considerado como correcto, y lo que los supuestos acerca de la estructura de los datos implica? Hay otro, más método correcto (u otro método que hace menos de hipótesis) que he fallado a la lista?

2voto

flawr Puntos 4409

Antes de responder a su pregunta: en general, no es cierto que la media de dos medios sea la media de todos los puntos. considera el ejemplo $avg(avg(0,0,0),avg(1,1)) = 0.5 \neq 0.4 = avg(0,0,0,1,1)$ .

Con respecto a la desviación estándar: solo su primer método realmente tiene sentido, porque los otros métodos en general no coinciden con la definición de la desviación estándar.

2voto

scitamehtam Puntos 348

Si consideras que el encogimiento de las estimaciones de muestras de las distribuciones con una varianza común, a continuación, la estimación combinada de la varianza común es $$ s^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2} $$

En esta expresión tiene una muestra de tamaño $n_1$ con varianza de la muestra $s_1^2$ , y una muestra de tamaño $n_2$ con varianza de la muestra $s_2^2$

Si entiendo sus datos, usted tiene $n_1=2$ widget 1 y $n_2=2$ widget 2 $$ s^2=\frac{s_1^2+s_2^2}{2} $$ así que en realidad la varianza es el promedio de las variaciones individuales, en este caso. La desviación estándar es la raíz cuadrada de la varianza.

Este enlace puede ser útil.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X