Sí, puedes. Al menos en un sentido aproximado.
Explico cómo a continuación (y de hecho hay una relación con la "superposición de cajas" como sugieres) junto con algunas advertencias y limitaciones. Pero primero vamos a discutir algunos preliminares para tener un poco de trasfondo y contexto. (Creo que una respuesta apropiada aquí debería enfocarse no en los detalles del ejemplo - aunque eso quizás merezca alguna mención de pasada - sino en el tema central de usar diagramas de caja para evaluar si las diferencias aparentes pueden explicarse fácilmente como variación aleatoria o no).
Si tienes acceso a los datos puedes dibujar diagramas de caja entallados que están diseñados para este tipo de comparación visual.
Hay una discusión sobre los cálculos de diagramas de caja entallados aquí. Si los intervalos entallados (para los valores predeterminados típicos) no se superponen, los dos grupos que se están comparando son diferentes a (aproximadamente) un nivel del 5%; los cálculos se basan en cálculos en la normal, pero son bastante robustos y funcionan razonablemente bien en una variedad de distribuciones. Si se trata como una prueba formal, el poder no es tan alto en la normal pero debería funcionar bastante bien para una variedad de casos más o menos "típicos" con colas más pesadas.
Teniendo en cuenta cómo funcionan los diagramas de caja entallados, puedes discernir una regla general rápida que funcionará cuando solo tienes una visualización como la que se muestra en la pregunta. Cuando el tamaño de la muestra es 10 y la mediana está colocada cerca del centro de la caja, las muescas en un diagrama de caja entallado tienen aproximadamente el mismo ancho que la caja, por lo que los extremos de las muescas y la caja están aproximadamente en el mismo lugar.
Ve aquí para discutir cómo surge una regla de aproximación "$n=10$".
Sin embargo, no necesitas la mediana en el centro de la caja para esta comparación; eso solo explica cómo llegamos a la regla. Aunque comenzamos desde diagramas de caja entallados y un cálculo basado en la normal de un intervalo para la mediana, ahora solo estamos considerando la regla de "superposición de cajas" en $n=10$ y una hipótesis nula que (junto con cualquier otra suposición) daría como resultado distribuciones continuas idénticas vs alguna alternativa que tendería a separar las cajas (no necesariamente cambio puro de ubicación, aunque esa es la alternativa más fácil de interpretar).
Las probabilidades de los posibles órdenes relativos de los cuartiles (bisagras en un diagrama de caja que sigue la definición de Tukey) en tamaños de muestra donde ocurren como observaciones únicas no dependen de la forma de la distribución bajo la hipótesis nula. En ese caso (por ejemplo, en $n=9$ en cada muestra) esta versión de la prueba es libre de distribución. En $n=10$ no es libre de distribución (ya que la distribución de los promedios de estadísticas de orden adyacentes ahora se relaciona con la forma de la distribución) pero es casi libre de distribución.
Tasas de error de Tipo I cerca de $n=10$: La simulación a través de una serie de distribuciones comúnmente utilizadas (tanto simétricas como sesgadas, con colas pesadas y ligeras) muestra que la prueba de superposición de cajas de dos muestras tiene aproximadamente un nivel de significancia del 2.3% en $n=10,10$ (realmente no hay mucha variación entre distribuciones) y es una prueba del 5.6% en $n=9,9$ (vuelve por debajo del 5% en $n=8,8$, presumiblemente debido al promedio de estadísticas de orden que reduce la varianza más de lo que aumenta la pérdida de una observación). Si tienes muestras de 9 y 10, el nivel de significancia será inferior al 5%.
Otros tamaños de muestra: Si conoces los tamaños de muestra puedes deducir dónde van las muescas solo a partir de la visualización. Si tienes un límite inferior en los tamaños de muestra, puedes obtener un límite superior en las ubicaciones de las muescas. Pero incluso si solo sabes que $n$ es al menos 10, puedes verificar rápidamente la superposición de cajas. El ancho de los intervalos de muescas es proporcional a $\sqrt{n}$ por lo que puedes calcular que en $n=40$, las muescas deberían estar aproximadamente a medio camino de cada cuartil desde la mediana.
Observando tu gráfico:
Nota que podemos decir por la apariencia del gráfico en la pregunta que los tamaños de muestra deben ser al menos 5; si fueran menos de 5 los diagramas de caja individuales tendrían pistas distintas de que son de un tamaño de muestra más bajo (como las medianas estando en el centro exacto de cada caja, o la longitud del bigote siendo de 0 cuando hay un valor atípico).
Alternativamente, si las cajas (que marcan los cuartiles) no se superponen y el tamaño de muestra es al menos 10, entonces los dos grupos que se están comparando deberían tener medianas diferentes a un nivel del 5% (considerado como una comparación par a par).
Si no conoces los valores de $n$, ya que sabemos que los tamaños de muestra deben ser al menos 5, solo necesitas hacer los intervalos un poco más grandes que las cajas, específicamente, si extiendes cada caja aproximadamente un 40% de la distancia desde la mediana y aún así no se superponen, indicarían una diferencia significativa para $n=5$ -- volviendo aquí a un argumento basado en la lógica de diagramas de caja entallados en lugar de la base más amplia que podemos discernir para simplemente comparar la caja.
[Nota, que esto no tiene en cuenta el número de comparaciones, por lo que si estás haciendo múltiples comparaciones tu error de Tipo I general será mayor. Está destinado a una inspección visual en lugar de una prueba formal; sin embargo, las ideas involucradas se pueden adaptar a un enfoque más formal, incluido el ajuste por múltiples comparaciones.]
Después de haber abordado si puedes, sería razonable considerar si deberías. Quizás no; el problema del p-hacking potencial es real, pero si estás usando esto para averiguar si, por ejemplo, buscar recopilar nuevos datos sobre el tema de investigación y todo lo que tienes es un diagrama de caja en un paper - digamos - puede ser bastante útil poder hacer alguna evaluación de si hay más allí de lo que fácilmente podría explicarse por variación debido al ruido. Pero considerar ese tema en profundidad realmente respondería a una pregunta diferente.
0 votos
Los círculos representan valores atípicos.
3 votos
Mientras el gráfico no tenga ninguna indicación del tamaño de la muestra, eso es difícil. Pero si incluyes en el gráfico intervalos de confianza para las medianas, podrías comparar esos intervalos de confianza. No parece que estén presentes en tu gráfico.
0 votos
@kjetilbhalvorsen esto es solo un gráfico que obtuve de Google :) ... He incluido, en mi propio gráfico, exactamente lo que has descrito, como parte de una prueba de Tukey's HSD
2 votos
Sin CIs, no se puede hablar de diferencias "significativas". Sin embargo, yo diría que hay una diferencia "notable" entre el jueves y el viernes. O incluso "la diferencia más notable" ocurre entre el jueves y el viernes.
1 votos
Los círculos son puntos más de 1.5 RIQ del cuartil más cercano. No son valores atípicos de forma inequívoca y objetiva. Lo del jueves no parece extraordinario en comparación con el resto de la distribución. Lo del viernes sí lo parece; y un investigador o analista debería querer revisarlo si es posible y ver si hay una historia que lo explique. ¡Quizás alguien realmente no durmió! Marcar los puntos de datos de esta manera es señalarlos para su inspección y reflexión. No es un método estadístico para identificar demonios que deben ser exorcizados.
0 votos
IQR = rango intercuartílico (no rango cuartílico interno). Ese último término resulta ser muy significativo; simplemente no es el término estándar.