35 votos

¿Existe una variante de boxplot para datos con distribución de Poisson?

Me gustaría saber si existe una variante de boxplot adaptada a los datos con distribución de Poisson (o posiblemente a otras distribuciones).

Con una distribución gaussiana, los bigotes colocados en L = Q1 - 1,5 IQR y U = Q3 + 1,5 IQR, el boxplot tiene la propiedad de que habrá aproximadamente tantos valores atípicos bajos (puntos por debajo de L) como valores atípicos altos (puntos por encima de U).

Sin embargo, si los datos tienen una distribución de Poisson, esto ya no se cumple debido a la asimetría positiva que obtenemos Pr(X<L) < Pr(X>U) . ¿Existe una forma alternativa de colocar los bigotes de forma que se "ajuste" a una distribución de Poisson?

33voto

jldugger Puntos 7490

Los gráficos de caja no se diseñaron para asegurar una baja probabilidad de sobrepasar los extremos de los bigotes en todos los casos: están pensados, y normalmente se utilizan, como simples caracterizaciones gráficas del grueso de un conjunto de datos. Como tales, están bien incluso cuando los datos tienen distribuciones muy asimétricas (aunque podrían no revelar tanta información como lo hacen sobre distribuciones aproximadamente no asimétricas).

Cuando los boxplots se vuelven asimétricos, como ocurrirá con una distribución de Poisson, el siguiente paso es reexpresar la variable subyacente (con una transformación monótona y creciente) y volver a dibujar los boxplots. Dado que la varianza de una distribución de Poisson es proporcional a su media, una buena transformación a utilizar es la raíz cuadrada.

Cada boxplot representa 50 extracciones iid de una distribución de Poisson con una intensidad determinada (de 1 a 10, con dos ensayos para cada intensidad). Obsérvese que la asimetría tiende a ser baja.

side-by-side boxplots

Los mismos datos en una escala de raíz cuadrada tienden a tener boxplots que son ligeramente más simétricos y (excepto para la intensidad más baja) tienen IQRs aproximadamente iguales independientemente de la intensidad).

boxplots of transformed data

En resumen, no cambie el algoritmo del boxplot: reexprese los datos en su lugar.


Por cierto, las oportunidades relevantes que hay que computar son éstas: ¿cuál es la probabilidad de que una variante normal independiente $X$ superará la valla superior(inferior) $U$ ( $L$ ) según la estimación de $n$ ¿extracciones independientes de la misma distribución? Esto tiene en cuenta el hecho de que los cercos de un boxplot no se calculan a partir de la distribución subyacente, sino que se estiman a partir de los datos. En la mayoría de los casos, las probabilidades son muy superiores al 1%. Por ejemplo, aquí (basado en 10.000 ensayos de Monte-Carlo) hay un histograma de las probabilidades logarítmicas (base 10) para el caso $n=9$ :

histogram of chances

(Como la distribución normal es simétrica, este histograma se aplica a ambas vallas). El logaritmo de 1%/2 es aproximadamente -2,3. Evidentemente, la mayoría de las veces la probabilidad es mayor que esto. Aproximadamente el 16% de las veces supera el 10%.

Resulta que (no voy a saturar esta respuesta con los detalles) las distribuciones de estas probabilidades son comparables al caso normal (para pequeñas $n$ ) incluso para distribuciones de Poisson de intensidad tan baja como 1, que es bastante asimétrica. La principal diferencia es que suele ser menos probable encontrar un valor atípico bajo y un poco más probable encontrar un valor atípico alto.

31voto

Patrick Puntos 183

Hay una generalización de los gráficos de caja estándar que conozco en la que las longitudes de los bigotes se ajustan para tener en cuenta los datos sesgados. Los detalles se explican mejor en un libro blanco muy claro y conciso (Vandervieren, E., Hubert, M. (2004) "An adjusted boxplot for skewed distributions", ver aquí ).

Hay un $\verb+R+$ la implementación de esta ( $\verb+robustbase::adjbox()+$ ) así como uno de matlab (en una biblioteca llamada $\verb+libra+$ ).

Personalmente, me parece una alternativa mejor que la transformación de datos (aunque también se basa en una regla ad-hoc, véase el libro blanco).

Por cierto, me parece que tengo algo que añadir al ejemplo de Whuber. En la medida en que estamos discutiendo el comportamiento de los bigotes, realmente deberíamos considerar también lo que ocurre cuando se consideran datos contaminados:

library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20,  4,    4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox(      B1,  col="red", main="adjusted boxplot of data")

En este modelo de contaminación, B1 tiene esencialmente una distribución logarítmica normal, salvo por el 20% de los datos que son valores atípicos medio a la izquierda y medio a la derecha (el punto de ruptura de adjbox es el mismo que el de los boxplots normales, es decir, asume que como máximo el 25% de los datos pueden ser malos).

Los gráficos representan los boxplots clásicos de los datos transformados (utilizando la transformación de la raíz cuadrada)

classical boxplot on square root transform of the data

y el boxplot ajustado de los datos no transformados.

adjusted boxplot of un-transformed data

En comparación con los boxplots ajustados, la primera opción enmascara los valores atípicos reales y etiqueta los datos buenos como atípicos. En general, se las ingeniará para ocultar cualquier evidencia de asimetría en los datos clasificando los puntos ofensivos como valores atípicos.

En este ejemplo, el enfoque de utilizar el boxplot estándar en la raíz cuadrada de los datos encuentra 13 valores atípicos (todos a la derecha), mientras que el boxplot ajustado encuentra 10 valores atípicos a la derecha y 14 a la izquierda.

EDIT: gráficos de caja ajustados en pocas palabras.

En los boxplots "clásicos" los bigotes se colocan en:

$Q_1$ -1,5*IQR y $Q_3$ +1,5*IQR

donde IQR es el rango intercuantil, $Q_1$ es el percentil 25 y $Q_3$ es el percentil 75 de los datos. La regla general es considerar todo lo que está fuera de la valla como datos dudosos (la valla es el intervalo entre los dos bigotes).

Esta regla general es ad hoc: la justificación es que si la parte no contaminada de los datos es aproximadamente gaussiana, entonces menos del 1% de los datos buenos se clasificarían como malos utilizando esta regla.

Un punto débil de esta regla de la valla, tal y como señala la OP, es que la longitud de los dos bigotes es idéntica, lo que significa que la regla de la valla sólo tiene sentido si la parte no contaminada de los datos tiene una distribución simétrica.

Un enfoque popular es conservar la regla de la valla y adaptar los datos. La idea es transformar los datos utilizando alguna transformación monótona que corrija la inclinación (raíz cuadrada o logaritmo o, más generalmente, transformaciones box-cox). Se trata de un enfoque un tanto desordenado: se basa en una lógica circular (la transformación debe elegirse de forma que corrija la asimetría de la parte no contaminada de los datos, que en esta fase es un elemento no observable) y tiende a dificultar la interpretación visual de los datos. En cualquier caso, sigue siendo un procedimiento extraño por el que se modifican los datos para preservar lo que, al fin y al cabo, es una regla ad hoc.

Una alternativa es dejar los datos sin tocar y cambiar la regla del bigote. El boxplot ajustado permite que la longitud de cada bigote varíe en función de un índice que mide la asimetría de la parte no contaminada de los datos:

$Q_1$ - $\exp(M,\alpha)$ 1,5*IQR y $Q_3$ + $\exp(M,\beta)$ 1,5*IQR

Donde $M$ es un índice de asimetría de la parte no contaminada de los datos (es decir, al igual que la mediana es una medida de localización para la parte no contaminada de los datos o la MAD una medida de dispersión para la parte no contaminada de los datos) y $\alpha$ $\beta$ son números elegidos de tal manera que para las distribuciones sesgadas no contaminadas la probabilidad de quedar fuera de la valla es relativamente pequeña en una gran colección de distribuciones sesgadas (esta es la parte ad-hoc de la regla de la valla).

Para los casos en que la parte buena de los datos es simétrica, $M\approx 0$ y volvemos a los clásicos bigotes.

Los autores sugieren utilizar la pareja media como estimador de $M$ (véase la referencia dentro del libro blanco) debido a su alta eficiencia (aunque en principio podría utilizarse cualquier índice de inclinación robusto). Con esta elección de $M$ y calcularon el valor óptimo de la $\alpha$ y $\beta$ empíricamente (utilizando un gran número de distribuciones sesgadas) como:

$Q_1$ - $\exp(-4M)$ 1,5*IQR y $Q_3$ + $\exp(3M)$ 1,5*IQR, si $M\geq 0$

$Q_1$ - $\exp(-3M)$ 1,5*IQR y $Q_3$ + $\exp(4M)$ 1,5*IQR, si $M<0$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X