Esto puede terminar siendo una cuestión más científica acerca de las mejores prácticas que cualquier otra cosa, pero creo que este es el derecho de la comunidad a pedir a obtener la visión que estoy buscando.
Decir que tengo dos pequeños cuadrados de los widgets de hecho de un material que se encoge cuando se moja. Quiero saber por cuánto. Yo mido la longitud de los widgets a lo largo de dos líneas cada uno (porque no son de forma perfectamente y mi técnica de medición no es perfecto), antes y después de la inmersión con agua. Vuelvo con los datos que se parece a esto:
Widget Measurement Before After Shrinkage
1 1 1.898 1.722 0.176
1 2 1.904 1.737 0.167
2 1 2.003 1.763 0.240
2 2 2.029 1.843 0.186
Ahora, puedo calcular la media general, sin preocuparse demasiado en este caso, dado que la media de los dos medios es la misma que la media de todos los puntos que se fue en el tiempo como cada medio tiene el mismo número de muestras, que en este caso lo hacen. Así:
avg(0.176,0.167,0.240,0.186) = 0.192 = avg(avg(0.176,0.167),avg(0.240,0.186))
Sin embargo, este tipo de relación es no verdadero para la desviación estándar. Hay varios enfoques que de inmediato se presentan a mí como opciones para encontrar una desviación estándar total para este conjunto de datos:
- El uso de todos los datos a la vez:
sd(0.176,0.167,0.240,0.186) = 0.033
- Obtener una desviación estándar para cada widget, y el promedio de ellos:
avg(sd(0.176,0.167),sd(0.240,0.186)) = 0.022
- Obtener el promedio de cada widget, y tomar la desviación estándar de los dos:
sd(avg(0.176,0.167),avg(0.240,0.186)) = 0.029
Ahora, tal vez es sólo la confusión de mi parte sobre el significado de una desviación estándar, pero no sé cuál es el enfoque sería correcto usar aquí (para el propósito de, por ejemplo, poner barras de error en un gráfico). Intuitivamente me siento atraído por el primer método, ya que parece incorporar la mayor cantidad de información acerca de los datos en el cálculo de desviación estándar. Yo soy cuidadoso, sin embargo, que esto podría ser implícitamente a hacer algunas hipótesis acerca de la estructura de los datos, tales como la homogeneidad, que en realidad no puede sostener.
¿Qué enfoque es generalmente considerado como correcto, y lo que los supuestos acerca de la estructura de los datos implica? Hay otro, más método correcto (u otro método que hace menos de hipótesis) que he fallado a la lista?