Lo que las implementaciones de R (deberían) hacer es para los desarrolladores y usuarios de ese software. Me gustaría comentar más ampliamente las limitaciones de los gráficos de caja.
Esto se solapa un poco con puntos planteados en otras respuestas, y me complace tomar nota de los acuerdos. Pero, a riesgo de repetirme, quería que esta respuesta me pareciera coherente, al menos a mí.
Los gráficos de caja, tal y como se conocen en la actualidad, se deben sobre todo a la reinvención de J.W. Tukey en la década de 1970 (más visiblemente en Análisis exploratorio de datos (1977) de los diagramas de dispersión utilizados habitualmente por los geógrafos a partir de los años treinta, que a su vez canalizaban una idea que se remontaba desde A.L. Bowley hasta Francis Galton de que (en términos modernos) los gráficos, o más en general los informes sobre datos, que se basaban en determinados cuantiles podían ofrecer resúmenes útiles y también detalles útiles.
Esta historia es poco conocida, en parte porque pocos no geógrafos están bien informados sobre la literatura geográfica, aunque el propio Tukey era consciente de ello. El meme de que Tukey inventó los diagramas de caja se complementa, en el mejor de los casos, con una mención sin historia de Marion E. Spear sobre los diagramas de rango-barra. La propia Spear utilizaba pero no citaba trabajos anteriores de Kenneth W. Haemer, que a su vez ignoraba a predecesores geográficos, y a Bowley, y a Galton. Pero no se puede esperar que nadie conozca todos los usos anteriores de los gráficos estadísticos en ninguna parte.
En muchos casos, los precursores de los gráficos de caja mostraban muchos más detalles que los gráficos de caja desnudos, a menudo todos los puntos de datos. Por el contrario, el trabajo de Tukey sobre los gráficos de caja se centraba en lo que podía hacerse rápidamente sólo con papel y bolígrafo, con la expectativa de que el usuario fuera capaz y estuviera dispuesto a hacer algunos cálculos sencillos, como promediar dos números o multiplicar por 1,5. Como alguien de 25 años en 1977, todavía me benefician los años de escolarización en "aritmética mental". Como alguien de 25 años en 1977, todavía me beneficio de años de escolarización en "aritmética mental" (no se permitía trabajar sobre papel, y mucho menos con reglas de cálculo o calculadoras o cualquier otra ayuda) así como en "aritmética mecánica" (se permitía trabajar sobre papel). Esto casi nunca es la situación rutinaria de nadie en el análisis de datos 50 años después. Además, el objetivo de un gráfico de caja era sobre todo exploratorio, por ejemplo para identificar puntos de datos sobre los que había que reflexionar, y posiblemente alguna acción como una transformación.
El propio Tukey nunca habría defendido el diagrama de cajas como adecuado para todo tipo de datos. Las áreas problemáticas incluyen, y no se limitan a,
-
Muestras muy pequeñas como en la pregunta.
-
Resultados discretos (por ejemplo, datos contados o categóricos). Por ejemplo, hay muchos hilos aquí que surgen de la perplejidad cuando no se muestra el bigote o falta aparentemente algún otro elemento de un diagrama de cajas. Los datos no tienen por qué ser patológicos o extraños para producir un gráfico de caja de aspecto extraño que resulte difícil de descifrar para muchos principiantes. Por ejemplo, supongamos que el 60% de los valores son 0, el 30% de los valores son 1 y el 10% de los valores son 2. Entonces, el mínimo, el cuartil inferior y el cuartil inferior son 0. En ese caso, el mínimo, el cuartil inferior y la mediana coinciden, el IQR es 1 y los 2 aparecen implícitamente al final de un bigote. Supongamos ahora que el 80% de los valores son 0.....
-
Distribuciones en forma de U . Tukey puso el ejemplo de los datos de Rayleigh (que condujeron al descubrimiento del argón), que caen en dos grupos, de modo que la caja es larga y los bigotes cortos. Además, las cajas largas y los bigotes cortos suelen interpretarse erróneamente como distribuciones con colas cortas y finas, ya que la gente olvida que si el 50% de la distribución está dentro de la caja, el 50% está fuera, y la densidad media fuera de la caja puede ser (mucho) mayor.
En todos estos casos, hay réplicas sencillas: utilizar otra cosa en su lugar o pensar un poco más (o aportar una historia mejor).
En cuanto a la pregunta:
-
Los programadores (yo también en otros contextos) tienen que pensar cuál es el comportamiento por defecto de sus programas. Yo no recomendaría un umbral de tamaño de muestra por debajo del cual se ignora el gráfico de caja y se hace otra cosa. Podría recomendar una opción para hacerlo.
-
Como en el caso anterior, la mayoría de las dificultades se evitan trazando rutinariamente gráficos de caja con alguna otra representación yuxtapuesta o superpuesta, ya sea un gráfico de puntos o de franjas o un gráfico de cuantiles (u ocasionalmente un histograma). Ya existen muchas variantes de esta idea. Las más populares parecen basarse en la separación de puntos de datos idénticos. Yo prefiero el apilamiento en cierto sentido, ya que el jittering no es tan fácil de decodificar en términos de densidad local.
He aquí un ejemplo con el mismo espíritu que la pregunta.
![enter image description here]()
Siempre que los puntos de datos se muestren directamente, resulta trivial descifrar los enigmáticos gráficos de caja o ignorarlos por considerarlos inútiles. Con muestras más grandes, que no es la cuestión, pero que sin duda también son importantes, se puede utilizar la mayor parte del espacio para la representación directa de los datos y dejar que los gráficos de caja sean breves resúmenes.
Detalle: Si muestra todos los datos, la necesidad de seguir reglas como "Trazar los puntos de datos individualmente siempre que alguno esté a más de 1,5 IQR del cuartil más cercano" disminuye, si es que no desaparece. En cualquier caso, estas reglas no se explican bien, no se entienden bien o ambas cosas. Por lo tanto, los bigotes pueden extenderse hasta los extremos o (como se hace a menudo) hasta los puntos del 5% y el 95%, siempre que se explique la convención.
El marcado contraste convencional entre la caja gruesa y los bigotes finos exagera la importancia de los cuartiles como umbrales o incluso como resúmenes. Naturalmente, esto resulta familiar a cualquiera que prefiera un gráfico de densidad o incluso un histograma.
Con este estilo no es necesario variar el ancho de la caja, ya que los diferentes tamaños de grupo se muestran por el número de puntos de datos. En cualquier caso, suele ser útil añadir texto de la forma n=15 en algún lugar conveniente.
Como una señal más de las posibilidades, considere este diseño para un conjunto de datos más grande en el que los valores de datos empatados hacen esencial el apilamiento (como aquí) o el jittering (si lo prefiere) si quiere ver el detalle de todos los puntos de datos. El gráfico de caja es un gráfico de caja sin caja basado en una sugerencia de 1983 de Edward R. Tufte. Llamó a este diseño gráfico de cuartiles . Otros han utilizado el término parcela midgap . El nombre carece de importancia, salvo para las menciones en Google. El objetivo original de Tufte parece sobre todo una visualización mínima que utilice la menor cantidad de tinta posible. A mí también me gusta su minimalismo, pero sugiero un motivo más estadístico: desplaza útilmente el énfasis de los puntos medios a las colas. A menudo, si no la mayoría de las veces, lo que ocurre en las colas es tan o más importante de seguir que lo que ocurre en las partes medias de las distribuciones. Yo utilizo un marcador o símbolo de punto para la mediana que es más prominente que los símbolos de punto utilizados por Tufte. El minimalismo, como casi cualquier otra virtud, puede llevarse al exceso.
Irónicamente, o no, en su libro de 2020 Tufte se manifiesta en contra de este diseño anterior y recomienda mostrar los datos en detalle. Pero como yo también lo hago con este diseño híbrido, no me siento culpable por ello.
![enter image description here]()