21 votos

¿Cómo evaluar la asimetría a partir de un diagrama de caja?

Cómo decidir la asimetría observando un diagrama de caja construido a partir de estos datos:

340, 300, 520, 340, 320, 290, 260, 330

Un libro dice: "Si el cuartil inferior está más lejos de la mediana que el cuartil superior, entonces la distribución es sesgada negativamente". Otras fuentes dicen más o menos lo mismo.

Construí un boxplot usando R. Es como el siguiente:

box-plot

Entiendo que es sesgada negativamente porque el cuartil inferior está más lejos de la mediana que el cuartil superior. Pero el problema es cuando utilizo otro método para determinar la asimetría:

media (337,5) > mediana (325)

Esto indica que los datos son sesgada positivamente . ¿Me he perdido algo?

21voto

AdamSane Puntos 1825

Una medida de la asimetría se basa en la media-mediana -. Segundo coeficiente de asimetría de Pearson .

Otra medida de la asimetría se basa en las diferencias relativas de los cuartiles (Q3-Q2) frente a (Q2-Q1) expresadas en forma de ratio

En cambio, cuando (Q3-Q2) frente a (Q2-Q1) se expresa como una diferencia (o, de forma equivalente, como la mediana), debe escalarse para que no tenga dimensiones (como suele ser necesario para una medida de asimetría), por ejemplo, mediante la IQR, de la siguiente forma aquí (poniendo $u=0.25$ ).

La medida más común es, por supuesto asimetría del tercer momento .

No hay ninguna razón para que estas tres medidas sean necesariamente coherentes. Cualquiera de ellas podría ser diferente de las otras dos.

Lo que consideramos "asimetría" es un concepto algo resbaladizo y mal definido. Véase aquí para seguir debatiendo.

Si miramos tus datos con un qqplot normal:

enter image description here

[La línea marcada ahí se basa sólo en los 6 primeros puntos, porque quiero discutir la desviación de los dos últimos del patrón ahí].

Vemos que los 6 puntos más pequeños se encuentran casi perfectamente sobre la línea.

Entonces, el séptimo punto está por debajo de la línea (más cerca del centro relativamente que el segundo punto correspondiente desde el extremo izquierdo), mientras que el octavo punto está muy por encima.

El 7º punto sugiere una ligera inclinación a la izquierda, el último, una inclinación más fuerte a la derecha. Si se ignora cualquiera de los dos puntos, la impresión de asimetría queda totalmente determinada por el otro.

Si yo tenía para decir que es una cosa o la otra, lo llamaría "desviación a la derecha", pero también señalaría que la impresión se debe enteramente al efecto de ese punto tan grande. Sin él, no hay nada que permita afirmar que se trata de una desviación a la derecha. (Por otra parte, sin el séptimo punto, está claro que no es oblicuo a la izquierda).

Debemos tener mucho cuidado cuando nuestra impresión está totalmente determinada por puntos individuales, y puede darse la vuelta eliminando un punto. No es una buena base.


Parto de la premisa de que lo que hace que un valor atípico sea "atípico" es el modelo (lo que es un valor atípico con respecto a un modelo puede ser bastante típico según otro modelo).

Creo que una observación en el percentil 0,01 superior (1/10000) de una normal (3,72 sds por encima de la media) es igual de atípica para el modelo normal que una observación en el percentil 0,01 superior de una distribución exponencial lo es para el modelo exponencial. (Si transformamos una distribución por su propia integral de probabilidad, cada una irá al mismo uniforme)

Para ver el problema de aplicar la regla del diagrama de caja incluso a una distribución moderadamente sesgada a la derecha, simule muestras grandes de una distribución exponencial.

Por ejemplo, si simulamos muestras de tamaño 100 de una normal, la media será inferior a 1 valor atípico por muestra. Si lo hacemos con una exponencial, la media es de unos 5. Pero no hay ninguna base real para afirmar que una mayor proporción de valores exponenciales son "atípicos", a menos que lo hagamos por comparación con (digamos) un modelo normal. En situaciones particulares podemos tener razones específicas para tener una regla de valores atípicos de alguna forma particular, pero no hay una regla general, lo que nos deja con principios generales como con el que empecé en esta subsección - para tratar cada modelo / distribución en sus propias luces (si un valor no es inusual con respecto a un modelo, ¿por qué llamarlo un valor atípico en esa situación?)


Volviendo a la pregunta del título :

Aunque se trata de un instrumento bastante rudimentario (por eso me fijé en el gráfico QQ), hay varios indicios de asimetría en un gráfico de caja: si hay al menos un punto marcado como atípico, hay potencialmente (al menos) tres:

enter image description here

En esta muestra (n=100), los puntos exteriores (verdes) marcan los extremos, y con la mediana sugieren asimetría a la izquierda. A continuación, los cercos (azules) sugieren (cuando se combinan con la mediana) asimetría a la derecha. Luego, las bisagras (cuartiles, marrón), sugieren asimetría a la izquierda cuando se combinan con la mediana.

Como vemos, no tienen por qué ser coherentes. En cuál te centrarías depende de la situación en la que te encuentres (y posiblemente de tus preferencias).

Sin embargo, una advertencia en lo crudo el boxplot es. El ejemplo del final aquí -- que incluye una descripción de cómo generar los datos -- da cuatro distribuciones bastante diferentes con el mismo boxplot:

enter image description here

Como se puede ver, hay una distribución bastante sesgada, con todos los indicadores de asimetría mencionados anteriormente mostrando una simetría perfecta.

--

Tomemos esto desde el punto de vista de "¿qué respuesta esperaba tu profesor, dado que se trata de un boxplot, que marca un punto como valor atípico?".

Nos queda responder primero "¿esperan que evalúes la asimetría excluyendo ese punto, o con él en la muestra?". Algunos lo excluirían y evaluarían la asimetría a partir de lo que queda, como hizo jsk en otra respuesta. Aunque he cuestionado algunos aspectos de este enfoque, no puedo decir que sea erróneo, depende de la situación. Algunos lo incluirían (entre otras cosas porque excluir el 12,5% de la muestra debido a una regla derivada de la normalidad parece un gran paso*).

* Imaginemos una distribución de población simétrica excepto por la cola extrema derecha (he construido una para responder a esta pregunta, normal pero con la cola extrema derecha de Pareto, pero no la he presentado en mi respuesta). Si extraigo muestras de tamaño 8, a menudo 7 de las observaciones proceden de la parte que parece normal y una procede de la cola superior. Si excluimos los puntos marcados como boxplot-outliers en ese caso, ¡estamos excluyendo el punto que nos está diciendo que en realidad está sesgado! Cuando lo hacemos, la distribución truncada que queda en esa situación es sesgada a la izquierda, y nuestra conclusión sería la opuesta a la correcta.

12voto

jldugger Puntos 7490

No, no te has perdido nada: en realidad estás viendo más allá de los resúmenes simplistas que se han presentado. Estos datos están sesgados tanto positiva como negativamente (en el sentido de "asimetría" que sugiere alguna forma de asimetría en la distribución de los datos).

John Tukey describió una forma sistemática de explorar la asimetría en lotes de datos mediante su "resumen N-numérico". Un diagrama de caja es un gráfico de un resumen de 5 números y, por tanto, se presta a este análisis.


Un boxplot muestra un resumen de 5 números: la mediana $M$ las dos bisagras $H^{+}$ y $H^{-}$ y los extremos $X^{+}$ y $X^{-}$ . La idea clave en el enfoque generalizado de Tukey es elegir algunos estadísticos $T_i^{+}$ que refleja la mitad superior del lote (basado en rangos o, equivalentemente, percentiles), con un aumento de $i$ correspondientes a datos más extremos. Cada estadística $T_i^{+}$ tiene una contraparte $T_i^{-}$ obtenido calculando la misma estadística después de dar la vuelta a los datos (negando los valores, por ejemplo). En un lote simétrico, cada par de estadísticas coincidentes debe estar centrado en el centro del lote (y este centro coincidirá con $M = M^{+}=M^{-}$ ). Por lo tanto, un gráfico de cuánto mide el estadístico medio $(T_i^{+} + T_i^{-})/2$ varía con $i$ ofrece un diagnóstico gráfico y puede proporcionar un cuantitativo estimación de la asimetría.

Para aplicar esta idea a un diagrama de caja, basta con dibujar los puntos medios de cada par de partes correspondientes: la mediana (que ya está ahí), el punto medio de las bisagras (extremos de la caja, mostrados en azul) y el punto medio de los extremos (mostrados en rojo).

Boxplot

En este ejemplo, el inferior valor de la bisagra media comparado con la mediana indica que la parte media del lote está ligeramente negativamente sesgada (corroborando así la apreciación citada en la pregunta, al tiempo que limita convenientemente su alcance a la medio del lote) mientras que el valor (mucho) más alto del extremo medio indica que las colas del lote (o al menos sus extremos) son positivamente (aunque, si se examina más detenidamente, esto se debe a un único valor atípico alto). Aunque se trata de un ejemplo casi trivial, la riqueza relativa de esta interpretación en comparación con un único estadístico de "asimetría" ya revela el poder descriptivo de este enfoque.

Con un poco de práctica, no es necesario dibujar estos estadísticos intermedios: puede imaginarse dónde están y leer la información de asimetría resultante directamente de cualquier diagrama de caja.


Un ejemplo de Tukey EDA (p. 81) utiliza un resumen de nueve números de las alturas de 219 volcanes (expresadas en centenas de pies). Llama a estas estadísticas $M$ , $H$ , $E$ , $D$ y $X$ corresponden (aproximadamente) al cuartil medio, al cuartil superior y al cuartil inferior, a los octavos, a los dieciseisavos y a los extremos, respectivamente. Los he indexado en este orden por $i=1, 2, 3, 4, 5$ . El gráfico de la izquierda de la siguiente figura es el gráfico de diagnóstico de los puntos medios de estas estadísticas pareadas. A partir de la aceleración de la pendiente, está claro que los datos son cada vez más sesgados positivamente a medida que nos adentramos en sus colas.

Figure 2

Los gráficos central y derecho muestran lo mismo para las raíces cuadradas (del datos, no de la estadística de números medios!) y los logaritmos (base-10). La relativa estabilidad de los valores de las raíces (obsérvese el rango vertical relativamente pequeño y el nivel inclinado en el centro) indica que este lote de 219 valores llega a ser aproximadamente simétrico tanto en sus porciones medias como en todas las partes de sus colas, casi hasta los extremos cuando las alturas se reexpresan como raíces cuadradas. Este resultado constituye una base sólida -casi imperiosa- para seguir analizando estas alturas en términos de sus raíces cuadradas.

Entre otras cosas, estos gráficos revelan algo cuantitativo sobre la asimetría de los datos: en la escala original, revelan inmediatamente la asimetría variable de los datos (lo que arroja dudas considerables sobre la utilidad de utilizar un único estadístico para caracterizar su asimetría), mientras que en la escala de la raíz cuadrada, los datos son casi simétricos en torno a su mitad y, por tanto, pueden resumirse sucintamente con un resumen de cinco números o, lo que es lo mismo, un diagrama de caja. La asimetría también varía considerablemente en la escala logarítmica, lo que demuestra que el logaritmo es una forma demasiado "fuerte" de expresar estos datos.

La generalización de un boxplot a resúmenes de siete, nueve y más números es sencilla de dibujar. Tukey los llama "diagramas esquemáticos". Hoy en día, muchos diagramas sirven a un propósito similar, incluidos los habituales, como los diagramas Q-Q, y las novedades relativas, como los "diagramas de frijol" y los "diagramas de violín". (Con los puntos de estos gráficos se puede evaluar la asimetría de forma detallada y llevar a cabo una evaluación similar de las formas de reexpresar los datos.

7voto

jsk Puntos 1631

Que la media sea menor o mayor que la mediana es un atajo que suele funcionar para determinar la dirección de la asimetría siempre que no haya valores atípicos. En este caso, la distribución está sesgada negativamente, pero la media es mayor que la mediana debido al valor atípico.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X