He tratado de cuantificar la heterogeneidad de una determinada variable. Me gustaría decir que la distribución en las concentraciones de calcita, por ejemplo, es más heterogénea en una formación rocosa que en otra.
Hasta ahora he graficado y comparado las distribuciones de las variables con histogramas superpuestos y diagramas de caja para múltiples variables, y en general esto está bien, pero toma tiempo de parte del lector interpretar los diagramas. He estado buscando comparaciones más directas, por ejemplo, gráficos de barras que comparen una medida apropiada de la variabilidad de la muestra en una formación, por ejemplo, la desviación estándar, el rango intercuartil, el coeficiente de variación, la desviación absoluta media o la mediana, etc. Pero por diversas razones no estoy satisfecho con estos enfoques.
No puedo evitar pensar que debe haber una forma más ordenada y sucinta de cuantificar la heterogeneidad/variabilidad
Responder a los comentarios:
Estoy investigando el error residual entre algunos valores predichos y observados. Los errores residuales para la roca A están distribuidos de forma ajustada y para la roca B están ampliamente distribuidos de forma no normal.
Estoy tratando de relacionar la variabilidad observada en el error, con la variabilidad observada en otras propiedades de la roca. Ambas rocas A y B son variables en diferentes aspectos, y estoy tratando de destacar la variabilidad que podría importar.
Así que he estado buscando formas de caracterizar la variabilidad con un solo valor, digamos que trazando todos los IQR de cada variable uno al lado del otro en un gráfico de barras, por ejemplo, donde uno podría inferir que la roca A es generalmente más variable que la roca B.
Mis problemas son los siguientes: las variables como la porosidad suelen estar siempre distribuidas de forma normal y ajustada. En cambio, la permeabilidad siempre es no normal, está muy sesgada, varía en 6 o 7 órdenes de magnitud y suele seguir una tendencia de potencia. En el caso de la permeabilidad, no estoy seguro de que un IQR capte realmente la variabilidad y, en segundo lugar, los IQR de las distintas variables no se representan bien entre sí, dada la diferencia de magnitud de la unidad principal. He mirado las medidas normalizadas de variabilidad, pero éstas falsean los valores con medias o medianas que no creo que reflejen los datos.
Tal vez no exista una solución ideal para estilos de distribución tan variados y deba limitarse a presentar sus distribuciones .?