Hay una generalización de los gráficos de caja estándar que conozco en la que las longitudes de los bigotes se ajustan para tener en cuenta los datos sesgados. Los detalles se explican mejor en un libro blanco muy claro y conciso (Vandervieren, E., Hubert, M. (2004) "An adjusted boxplot for skewed distributions", ver aquí ).
Hay un $\verb+R+$ la implementación de esta ( $\verb+robustbase::adjbox()+$ ) así como uno de matlab (en una biblioteca llamada $\verb+libra+$ ).
Personalmente, me parece una alternativa mejor que la transformación de datos (aunque también se basa en una regla ad-hoc, véase el libro blanco).
Por cierto, me parece que tengo algo que añadir al ejemplo de Whuber. En la medida en que estamos discutiendo el comportamiento de los bigotes, realmente deberíamos considerar también lo que ocurre cuando se consideran datos contaminados:
library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20, 4, 4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox( B1, col="red", main="adjusted boxplot of data")
En este modelo de contaminación, B1 tiene esencialmente una distribución logarítmica normal, salvo por el 20% de los datos que son valores atípicos medio a la izquierda y medio a la derecha (el punto de ruptura de adjbox es el mismo que el de los boxplots normales, es decir, asume que como máximo el 25% de los datos pueden ser malos).
Los gráficos representan los boxplots clásicos de los datos transformados (utilizando la transformación de la raíz cuadrada)
y el boxplot ajustado de los datos no transformados.
En comparación con los boxplots ajustados, la primera opción enmascara los valores atípicos reales y etiqueta los datos buenos como atípicos. En general, se las ingeniará para ocultar cualquier evidencia de asimetría en los datos clasificando los puntos ofensivos como valores atípicos.
En este ejemplo, el enfoque de utilizar el boxplot estándar en la raíz cuadrada de los datos encuentra 13 valores atípicos (todos a la derecha), mientras que el boxplot ajustado encuentra 10 valores atípicos a la derecha y 14 a la izquierda.
EDIT: gráficos de caja ajustados en pocas palabras.
En los boxplots "clásicos" los bigotes se colocan en:
$Q_1$ -1,5*IQR y $Q_3$ +1,5*IQR
donde IQR es el rango intercuantil, $Q_1$ es el percentil 25 y $Q_3$ es el percentil 75 de los datos. La regla general es considerar todo lo que está fuera de la valla como datos dudosos (la valla es el intervalo entre los dos bigotes).
Esta regla general es ad hoc: la justificación es que si la parte no contaminada de los datos es aproximadamente gaussiana, entonces menos del 1% de los datos buenos se clasificarían como malos utilizando esta regla.
Un punto débil de esta regla de la valla, tal y como señala la OP, es que la longitud de los dos bigotes es idéntica, lo que significa que la regla de la valla sólo tiene sentido si la parte no contaminada de los datos tiene una distribución simétrica.
Un enfoque popular es conservar la regla de la valla y adaptar los datos. La idea es transformar los datos utilizando alguna transformación monótona que corrija la inclinación (raíz cuadrada o logaritmo o, más generalmente, transformaciones box-cox). Se trata de un enfoque un tanto desordenado: se basa en una lógica circular (la transformación debe elegirse de forma que corrija la asimetría de la parte no contaminada de los datos, que en esta fase es un elemento no observable) y tiende a dificultar la interpretación visual de los datos. En cualquier caso, sigue siendo un procedimiento extraño por el que se modifican los datos para preservar lo que, al fin y al cabo, es una regla ad hoc.
Una alternativa es dejar los datos sin tocar y cambiar la regla del bigote. El boxplot ajustado permite que la longitud de cada bigote varíe en función de un índice que mide la asimetría de la parte no contaminada de los datos:
$Q_1$ - $\exp(M,\alpha)$ 1,5*IQR y $Q_3$ + $\exp(M,\beta)$ 1,5*IQR
Donde $M$ es un índice de asimetría de la parte no contaminada de los datos (es decir, al igual que la mediana es una medida de localización para la parte no contaminada de los datos o la MAD una medida de dispersión para la parte no contaminada de los datos) y $\alpha$ $\beta$ son números elegidos de tal manera que para las distribuciones sesgadas no contaminadas la probabilidad de quedar fuera de la valla es relativamente pequeña en una gran colección de distribuciones sesgadas (esta es la parte ad-hoc de la regla de la valla).
Para los casos en que la parte buena de los datos es simétrica, $M\approx 0$ y volvemos a los clásicos bigotes.
Los autores sugieren utilizar la pareja media como estimador de $M$ (véase la referencia dentro del libro blanco) debido a su alta eficiencia (aunque en principio podría utilizarse cualquier índice de inclinación robusto). Con esta elección de $M$ y calcularon el valor óptimo de la $\alpha$ y $\beta$ empíricamente (utilizando un gran número de distribuciones sesgadas) como:
$Q_1$ - $\exp(-4M)$ 1,5*IQR y $Q_3$ + $\exp(3M)$ 1,5*IQR, si $M\geq 0$
$Q_1$ - $\exp(-3M)$ 1,5*IQR y $Q_3$ + $\exp(4M)$ 1,5*IQR, si $M<0$