12 votos

¿Es posible ver diferencias significativas entre grupos al leer diagramas de caja y bigotes?

Supongamos que estamos viendo este diagrama de caja y bigotes:

plot

Entre el jueves y el viernes, creo que la mayoría estaría de acuerdo en que parece haber una diferencia significativa en el tiempo dormido. ¿Es esa una conjetura estadísticamente válida, sin embargo? ¿Podemos discernir diferencias significativas debido a que ninguno de los rangos intercuartílicos se superponen entre el jueves y el viernes? ¿Qué hay de que las barras superior e inferior del jueves y viernes, respectivamente, se superpongan? ¿Eso afecta nuestro análisis?

Usualmente acompañando a un gráfico como este habría algún tipo de ANOVA, pero solo estoy curioso por saber cuánto podemos decir sobre las diferencias entre grupos simplemente mirando un diagrama de caja.

0 votos

Los círculos representan valores atípicos.

3 votos

Siempre y cuando el gráfico no incluya ninguna indicación del tamaño de la muestra, eso es difícil. Pero si incluyes con el gráfico intervalos de confianza para las medianas, podrías comparar esos intervalos de confianza. No parecen estar presentes en tu gráfico.

0 votos

@kjetilbhalvorsen esto es solo un gráfico que he tomado de Google :) ... He incluido, en mi propio gráfico, exactamente lo que has descrito, como parte de una prueba de Tukey's HSD

14voto

AdamSane Puntos 1825

Sí, puedes. Al menos en un sentido aproximado.

Detallo a continuación (y de hecho hay una relación con la "superposición de cajas" como sugieres) junto con algunas advertencias y limitaciones. Pero primero discutamos algunos conceptos preliminares para tener algo de antecedentes y contexto. (Creo que una respuesta apropiada aquí debería centrarse no en los detalles del ejemplo - aunque tal vez eso merezca alguna mención aparte - sino en el tema central de usar diagramas de caja para evaluar si las diferencias aparentes pueden explicarse fácilmente como variación aleatoria o no.)

Si tienes acceso a los datos, puedes dibujar diagramas de caja con muescas que están diseñados para este tipo de comparación visual.

Imagen que muestra diagramas de caja con muescas en R

Hay una discusión sobre el cálculo de diagramas de caja con muescas aquí. Si los intervalos de las muescas (para los valores predeterminados típicos) no se superponen, los dos grupos que se comparan son diferentes al nivel del 5% (aproximadamente); los cálculos se basan en cálculos en la distribución normal, pero son bastante robustos y funcionan bastante bien en una variedad de distribuciones. Si se trata como una prueba formal, el poder no es muy alto en la normal, pero debería funcionar bastante bien para una variedad de casos más o menos "típicos" con colas más pesadas.

Teniendo en cuenta cómo funcionan los diagramas de caja con muescas, puedes discernir una regla de oro rápida que funcionará cuando solo tengas una visualización como la que se muestra en la pregunta. Cuando el tamaño de la muestra es 10 y la mediana está cerca del centro de la caja, las muescas en un diagrama de caja con muescas tienen aproximadamente el ancho de la caja, por lo que los extremos de las muescas y la caja están aproximadamente en el mismo lugar.

Consulta aquí para discusión de cómo surge una regla de oro "$n=10$".

Sin embargo, no necesitas que la mediana esté en el centro de la caja para esta comparación; eso solo explica cómo llegamos a la regla. Aunque comenzamos desde diagramas de caja con muescas y un cálculo basado en la normal de un intervalo para la mediana, ahora estamos considerando simplemente la regla de "superposición de cajas" en $n=10$ y una hipótesis nula que (junto con cualquier otra suposición) resultaría en distribuciones continuas idénticas frente a alguna alternativa que tendería a separar las cajas (no necesariamente un cambio de ubicación puro, aunque esa es la alternativa más fácil de interpretar).

Las probabilidades de los posibles órdenes relativos de los cuartiles (bisagras en un diagrama de caja que se adhiere a la definición de Tukey) en tamaños de muestra donde ocurren en observaciones individuales no dependen de la forma de la distribución bajo la hipótesis nula. En ese caso (por ejemplo, en $n=9$ en cada muestra) esta versión de la prueba es libre de distribución. En $n=10$ no es libre de distribución (ya que la distribución de los promedios de estadísticas de orden adyacentes ahora se relaciona con la forma de la distribución) pero es casi libre de distribución.

Tasas de error de tipo I cerca de $n=10$: La simulación a través de varios de las distribuciones comúnmente utilizadas (tanto simétricas como sesgadas, con colas pesadas y ligeras) muestra que la prueba de superposición de cajas de dos muestras tiene un nivel de significancia del 2.3% en $n=10,10$ (realmente no hay mucha variación entre distribuciones) y es aproximadamente una prueba del 5.6% en $n=9,9$ (vuelve por debajo del 5% en $n=8,8$, presumiblemente debido al promedio de las estadísticas de orden reduciendo más la varianza que la pérdida de una observación aumenta). Si tienes muestras de 9 y 10, el nivel de significancia es inferior al 5%.

Otros tamaños de muestra: Si conoces los tamaños de muestra, puedes averiguar dónde van las muescas solo con la visualización. Si tienes un límite inferior en los tamaños de muestra, puedes obtener un límite superior en los lugares de las muescas. Pero incluso si todo lo que sabes es que $n$ es al menos 10, puedes verificar rápidamente la superposición de cajas. El ancho de los intervalos de las muescas es proporcional a $\sqrt{n}$, por lo que puedes calcular que en $n=40$, las muescas deberían estar aproximadamente a mitad de camino entre cada cuartil y la mediana.

Observando tu gráfico:

Observa que podemos deducir por la apariencia del gráfico en la pregunta que los tamaños de muestra deben ser al menos 5; si fueran menos de 5, los diagramas de caja de cada muestra individual tendrían pistas distintas de que provienen de un tamaño de muestra menor (como medianas justo en el centro de cada caja, o la longitud de los bigotes siendo 0 cuando hay un valor atípico).

Alternativamente, si las cajas (marcando los cuartiles) no se superponen entre sí y el tamaño de muestra es al menos 10, entonces los dos grupos que se comparan deberían tener medianas diferentes al nivel del 5% (considerado como una comparación pareja).

Si no conoces los valores de $n$, ya que sabemos que los tamaños de muestra deberían ser al menos 5, solo necesitas hacer los intervalos un poco más grandes que las cajas, específicamente, si extiendes cada caja aproximadamente el 40% de la distancia desde la mediana y aún no se superponen, indicarían una diferencia significativa para $n=5$ - regresando aquí a un argumento basado en el razonamiento de los diagramas de caja con muescas en lugar de la base más amplia que podemos discernir solo comparando las cajas.

[Nota, que esto no tiene en cuenta el número de comparaciones, por lo que si estás haciendo múltiples comparaciones, tu error de tipo I total será mayor. Está destinado a una inspección visual en lugar de una prueba formal; sin embargo, las ideas involucradas se pueden adaptar a un enfoque más formal, incluido el ajuste para múltiples comparaciones.]

Habiendo abordado si puedes, sería razonable considerar si deberías. Quizás no; el problema de posibles p-hacking es real, pero si estás usando esto para averiguar si, por ejemplo, perseguir la recolección de nuevos datos sobre el tema de investigación y todo lo que tienes es un diagrama de caja en un artículo - digamos - podría ser bastante útil poder hacer alguna evaluación de si hay más allá de lo que podría explicarse fácilmente por la variación debida al ruido. Pero considerar ese tema en profundidad realmente estaría respondiendo a una pregunta diferente.

5voto

Zizzencs Puntos 1358

No, no puedes. Si tuvieras los tamaños de muestra y mucha experiencia, podrías intentar adivinar, y la precisión de tu suposición dependería (además del tamaño del efecto) del tamaño de la muestra. Si N = 1,000,000 por grupo, mucha significancia. Si N = 10 por grupo, no tanto. Con 100 por grupo es más difícil de adivinar.

Yo argumentaría que eso es algo bueno. Lo que se debe hacer con un diagrama de caja no es tratar de adivinar la significancia estadística, sino mirar lo que está sucediendo e intentar razonar al respecto. Mmm. Más dormir los fines de semana. Eso es interesante pero no realmente sorprendente. Podríamos modelar las horas de sueño como una función de fin de semana vs. no. O podríamos intentar ver si este patrón variaba. ¿Quizás las personas retiradas no tienen este patrón? ¿Qué hay de los trabajadores por turnos? ¿Personas que trabajan los fines de semana? ¿Personas que trabajan los 7 días de la semana?

Como solía decir mi profesor favorito de la universidad (Herman Friedman): "¡Deja de mear en la investigación!"

1 votos

Creo que esta respuesta es innecesariamente pesimista. Los boxplots realmente contienen algo de información sobre los tamaños de grupo, porque los tamaños de grupo muy pequeños ($N \lt 5$) tienen estructuras "degeneradas" características. Debido a que estas distribuciones no están demasiado sesgadas y tienen pocos valores atípicos, el RIC (por un múltiplo adecuado) es un buen sustituto de la DE, por lo que podemos acotar los errores estándar. Por lo tanto, se puede hacer un ANOVA conservador y aproximado solo con el gráfico: y mostrará que el ANOVA general es significativo. También se pueden hacer pruebas post-hoc conservadoras.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X