12 votos

¿Es posible obtener diferencias significativas entre grupos leyendo gráficos de caja y bigotes?

Supongamos que estamos mirando este gráfico de cajas y bigotes:

plot

Entre el jueves y el viernes, creo que la mayoría estaría de acuerdo en que parece haber una diferencia significativa en el tiempo dormido. ¿Es esa una conjetura estadísticamente válida, sin embargo? ¿Podemos discernir diferencias significativas debido al hecho de que ninguno de los rangos intercuartílicos se superponen entre el jueves y el viernes? ¿Qué pasa con el hecho de que las barras superior e inferior de jueves y viernes, respectivamente, se superponen? ¿Eso afecta nuestro análisis?

Normalmente, acompañando a un gráfico como este habría algún tipo de ANOVA, pero solo estoy curioso por saber cuánto podemos decir sobre las diferencias entre grupos simplemente mirando un diagrama de cajas.

0 votos

Los círculos representan valores atípicos.

3 votos

Mientras el gráfico no tenga ninguna indicación del tamaño de la muestra, eso es difícil. Pero si incluyes en el gráfico intervalos de confianza para las medianas, podrías comparar esos intervalos de confianza. No parece que estén presentes en tu gráfico.

0 votos

@kjetilbhalvorsen esto es solo un gráfico que obtuve de Google :) ... He incluido, en mi propio gráfico, exactamente lo que has descrito, como parte de una prueba de Tukey's HSD

14voto

AdamSane Puntos 1825

Sí, puedes. Al menos en un sentido aproximado.

Explico cómo a continuación (y de hecho hay una relación con la "superposición de cajas" como sugieres) junto con algunas advertencias y limitaciones. Pero primero vamos a discutir algunos preliminares para tener un poco de trasfondo y contexto. (Creo que una respuesta apropiada aquí debería enfocarse no en los detalles del ejemplo - aunque eso quizás merezca alguna mención de pasada - sino en el tema central de usar diagramas de caja para evaluar si las diferencias aparentes pueden explicarse fácilmente como variación aleatoria o no).

Si tienes acceso a los datos puedes dibujar diagramas de caja entallados que están diseñados para este tipo de comparación visual.

Imagen que muestra diagramas de caja entallados en R

Hay una discusión sobre los cálculos de diagramas de caja entallados aquí. Si los intervalos entallados (para los valores predeterminados típicos) no se superponen, los dos grupos que se están comparando son diferentes a (aproximadamente) un nivel del 5%; los cálculos se basan en cálculos en la normal, pero son bastante robustos y funcionan razonablemente bien en una variedad de distribuciones. Si se trata como una prueba formal, el poder no es tan alto en la normal pero debería funcionar bastante bien para una variedad de casos más o menos "típicos" con colas más pesadas.

Teniendo en cuenta cómo funcionan los diagramas de caja entallados, puedes discernir una regla general rápida que funcionará cuando solo tienes una visualización como la que se muestra en la pregunta. Cuando el tamaño de la muestra es 10 y la mediana está colocada cerca del centro de la caja, las muescas en un diagrama de caja entallado tienen aproximadamente el mismo ancho que la caja, por lo que los extremos de las muescas y la caja están aproximadamente en el mismo lugar.

Ve aquí para discutir cómo surge una regla de aproximación "$n=10$".

Sin embargo, no necesitas la mediana en el centro de la caja para esta comparación; eso solo explica cómo llegamos a la regla. Aunque comenzamos desde diagramas de caja entallados y un cálculo basado en la normal de un intervalo para la mediana, ahora solo estamos considerando la regla de "superposición de cajas" en $n=10$ y una hipótesis nula que (junto con cualquier otra suposición) daría como resultado distribuciones continuas idénticas vs alguna alternativa que tendería a separar las cajas (no necesariamente cambio puro de ubicación, aunque esa es la alternativa más fácil de interpretar).

Las probabilidades de los posibles órdenes relativos de los cuartiles (bisagras en un diagrama de caja que sigue la definición de Tukey) en tamaños de muestra donde ocurren como observaciones únicas no dependen de la forma de la distribución bajo la hipótesis nula. En ese caso (por ejemplo, en $n=9$ en cada muestra) esta versión de la prueba es libre de distribución. En $n=10$ no es libre de distribución (ya que la distribución de los promedios de estadísticas de orden adyacentes ahora se relaciona con la forma de la distribución) pero es casi libre de distribución.

Tasas de error de Tipo I cerca de $n=10$: La simulación a través de una serie de distribuciones comúnmente utilizadas (tanto simétricas como sesgadas, con colas pesadas y ligeras) muestra que la prueba de superposición de cajas de dos muestras tiene aproximadamente un nivel de significancia del 2.3% en $n=10,10$ (realmente no hay mucha variación entre distribuciones) y es una prueba del 5.6% en $n=9,9$ (vuelve por debajo del 5% en $n=8,8$, presumiblemente debido al promedio de estadísticas de orden que reduce la varianza más de lo que aumenta la pérdida de una observación). Si tienes muestras de 9 y 10, el nivel de significancia será inferior al 5%.

Otros tamaños de muestra: Si conoces los tamaños de muestra puedes deducir dónde van las muescas solo a partir de la visualización. Si tienes un límite inferior en los tamaños de muestra, puedes obtener un límite superior en las ubicaciones de las muescas. Pero incluso si solo sabes que $n$ es al menos 10, puedes verificar rápidamente la superposición de cajas. El ancho de los intervalos de muescas es proporcional a $\sqrt{n}$ por lo que puedes calcular que en $n=40$, las muescas deberían estar aproximadamente a medio camino de cada cuartil desde la mediana.

Observando tu gráfico:

Nota que podemos decir por la apariencia del gráfico en la pregunta que los tamaños de muestra deben ser al menos 5; si fueran menos de 5 los diagramas de caja individuales tendrían pistas distintas de que son de un tamaño de muestra más bajo (como las medianas estando en el centro exacto de cada caja, o la longitud del bigote siendo de 0 cuando hay un valor atípico).

Alternativamente, si las cajas (que marcan los cuartiles) no se superponen y el tamaño de muestra es al menos 10, entonces los dos grupos que se están comparando deberían tener medianas diferentes a un nivel del 5% (considerado como una comparación par a par).

Si no conoces los valores de $n$, ya que sabemos que los tamaños de muestra deben ser al menos 5, solo necesitas hacer los intervalos un poco más grandes que las cajas, específicamente, si extiendes cada caja aproximadamente un 40% de la distancia desde la mediana y aún así no se superponen, indicarían una diferencia significativa para $n=5$ -- volviendo aquí a un argumento basado en la lógica de diagramas de caja entallados en lugar de la base más amplia que podemos discernir para simplemente comparar la caja.

[Nota, que esto no tiene en cuenta el número de comparaciones, por lo que si estás haciendo múltiples comparaciones tu error de Tipo I general será mayor. Está destinado a una inspección visual en lugar de una prueba formal; sin embargo, las ideas involucradas se pueden adaptar a un enfoque más formal, incluido el ajuste por múltiples comparaciones.]

Después de haber abordado si puedes, sería razonable considerar si deberías. Quizás no; el problema del p-hacking potencial es real, pero si estás usando esto para averiguar si, por ejemplo, buscar recopilar nuevos datos sobre el tema de investigación y todo lo que tienes es un diagrama de caja en un paper - digamos - puede ser bastante útil poder hacer alguna evaluación de si hay más allí de lo que fácilmente podría explicarse por variación debido al ruido. Pero considerar ese tema en profundidad realmente respondería a una pregunta diferente.

5voto

Zizzencs Puntos 1358

No, no puedes. Si tuvieras los tamaños de muestra y mucha experiencia, podrías intentar adivinar, y la precisión de tu conjetura dependería del tamaño de muestra (además del tamaño del efecto). Si N = 1,000,000 por grupo, mucha significancia. Si N = 10 por grupo, no tanto. Con 100 por grupo es más difícil adivinar.

Yo argumentaría que eso es una cosa buena. La cosa que hay que hacer con un gráfico de caja no es intentar adivinar la significancia estadística, sino mirar lo que está sucediendo e intentar razonar al respecto. Mmm. Más horas de sueño los fines de semana. Eso es interesante pero no realmente sorprendente. Podríamos modelar las horas de sueño como una función de fines de semana vs. no. O podríamos intentar ver si este patrón variaba. ¿Quizás las personas jubiladas no tienen este patrón? ¿Qué hay de los trabajadores por turnos? ¿Personas que trabajan los fines de semana? ¿Personas que trabajan 7 días a la semana?

Como solía decir mi profesor favorito en la escuela de posgrado (Herman Friedman): "¡Deja de mear en la investigación!"

1 votos

Creo que esta respuesta es innecesariamente pesimista. Los diagramas de caja realmente contienen información sobre los tamaños de grupo, porque los tamaños de grupo realmente pequeños ($N \lt 5$) tienen estructuras "degeneradas" características. Dado que estas distribuciones no están demasiado sesgadas y tienen pocos valores atípicos, el RIC (por un múltiplo adecuado) es un buen sustituto de la DE, por lo que podemos acotar los errores estándar. Por lo tanto, se puede hacer un ANOVA aproximado conservador solo a partir del gráfico: y se mostrará que el ANOVA general es significativo. También se pueden realizar pruebas conservadoras post-hoc.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X