En cuanto al muescas boxplot va, la McGill et al [1] se menciona en su pregunta contiene datos completos (no todo lo que digo aquí es explícitamente mencionado, pero sin embargo es lo suficientemente detallado como para entenderlo).
El intervalo es un robustified pero Gaussianas basado en una
El documento cita el siguiente intervalo de muescas (donde $M$ es la muestra de la mediana y de la $R$ es la muestra rango intercuartil):
$$M\pm 1.7 \times 1.25R/(1.35\sqrt{N})$$
donde:
$1.35$ es un asintótica factor de conversión para convertir IQRs en las estimaciones de $\sigma$ -- específicamente, es aproximadamente la diferencia entre el 0,75 cuantil y el 0.25 cuantil de una normal estándar; la población cuartiles son de aproximadamente 1.35 $\sigma$ aparte, de modo que un valor de alrededor de $R/1.35$ debe ser una constante (asintóticamente insesgados) estimación de $\sigma$ (más exactamente, sobre 1.349).
$1.25$ viene porque estamos lidiando con el error asintótico estándar de la mediana en lugar de la media. Específicamente, la varianza asintótica de la muestra, la mediana es $\frac{1}{4nf_0^2}$ donde $f_0$ es la densidad de la altura a la mediana. Para una distribución normal, $f_0$$\frac{1}{\sqrt{2\pi}\sigma}\approx \frac{0.3989}{\sigma}$, por lo que el error asintótico estándar de la mediana de la muestra es $\frac{1}{2\sqrt{N}f_0}= \sqrt{\pi/2}\sigma/\sqrt{N}\approx 1.253\sigma/\sqrt{N}$.
Como StasK menciona aquí, los más pequeños de $N$, la más dudosa esto sería (en sustitución de su tercera razón con uno acerca de la razonabilidad de la utilización de la distribución normal en el primer lugar.
La combinación de los dos anteriores, se obtiene una estimación asintótica del error estándar de la mediana de alrededor de $1.25R/(1.35\sqrt{N})$. McGill et al crédito esta a Kendall y Stuart (no recuerdo si la fórmula en particular, se produce o no, pero los componentes).
Así que todo lo que queda por discutir es el factor de 1.7.
Tenga en cuenta que si estábamos comparando una muestra para un valor fijo (digamos, una hipótesis de la mediana) tendríamos que usar 1.96 para un 5% de la prueba; por tanto, si hemos tenido dos muy diferentes de los errores estándar (uno relativamente grande, uno muy pequeño), que sería sobre el factor de uso (ya que si la nula fuera verdadera, la diferencia sería casi en su totalidad debido a la variación en el uno con el mayor estándar de error, y el pequeño podría - aproximadamente - de ser tratado como efectivamente fijo).
Por otro lado, si los dos errores estándar son los mismos, 1.96 sería demasiado grande un factor, ya que ambos conjuntos de muescas en -- para los dos conjuntos de muescas para que no se superponen estamos añadiendo uno de cada uno. Esto haría que el derecho del factor de $1.96/\sqrt{2}\approx 1.386$ asintóticamente.
En algún lugar en el medio , hemos 1.7 como un duro compromiso. McGill et al describirlo como "empíricamente seleccionado". Viene muy cerca suponiendo una particular relación de varianzas, por lo que supongo (y no es nada más que eso) es que la selección empírica (presumiblemente basado en algunas de simulación) fue de entre un conjunto de ronda como proporción del valor de las desviaciones (como 1:1, 2:1,3:1,... ), de que la "mejor solución de compromiso" $r$ de la $r:1$ relación se enchufa en $1.96/\sqrt{1+1/r}$ redondeado a dos cifras. Al menos es una forma plausible para terminar muy cerca de 1.7.
Poniendo a todos (1.35,1.25 y 1.7) en conjunto da acerca de 1.57. Algunas fuentes se 1.58 mediante el cálculo de los 1,35 o la 1,25 (o ambos) con más precisión, sino como un compromiso entre 1.386 y 1.96, que 1.7 no es ni siquiera precisa a dos cifras significativas (es solo un estadio compromiso de valor), por lo que el adicional de precisión es inútil (que bien podría haber sólo la vuelta a la cosa entera a 1.6 y hacer con ella).
Tenga en cuenta que no hay ningún ajuste para comparaciones múltiples en cualquier lugar aquí.
Hay algunas distintas analogías en los límites de confianza para la diferencia en las pruebas de Tukey-Kramer HSD:
$$\bar{y}_{i\bullet}-\bar{y}_{j\bullet} \pm \frac{q_{\alpha;k;N-k}}{\sqrt{2}}\widehat{\sigma}_\varepsilon \sqrt{\frac{1}{n_i} + \frac{1}{n_j}}$$
Pero tenga en cuenta que
esta es una combinación de un intervalo, no dos separadas contribuciones a una diferencia (por lo que tienen un término en $c.\sqrt{\frac{1}{n_i} + \frac{1}{n_j}}$ más que los dos contribuyen por separado $k.\sqrt{\frac{1}{n_{i}}}$ $k.\sqrt{\frac{1}{n_j}}$ y suponemos constante de la varianza (así que no estamos tratando con el compromiso con la $1.96$ - cuando podríamos tener diferentes variaciones - en lugar de la asintótica $1.96/\sqrt{2}$ de los casos)
se basa en los medios, no en los camellones (por lo que no 1.35)
se basa en la $q$, el cual se basa a su vez en la mayor diferencia en los valores medios (por lo que no hay aún ninguna 1.96 parte en este, incluso uno dividido por $\sqrt{2}$). Por el contrario, en la comparación de varios diagramas de caja, no hay ninguna consideración de basar las muescas en el mayor diferencia en las medianas, todo es puramente pares.
Así, mientras que algunas de las ideas detrás de la forma de los componentes son relativamente similares, en realidad son bastante diferentes en lo que están haciendo.
[1] McGill, R., Tukey, J. W. y Larsen, W. A. (1978) las Variaciones de los diagramas de caja. El Estadístico Americano 32, 12-16.