Una medida de la asimetría se basa en la media-mediana -. Segundo coeficiente de asimetría de Pearson .
Otra medida de la asimetría se basa en las diferencias relativas de los cuartiles (Q3-Q2) frente a (Q2-Q1) expresadas en forma de ratio
En cambio, cuando (Q3-Q2) frente a (Q2-Q1) se expresa como una diferencia (o, de forma equivalente, como la mediana), debe escalarse para que no tenga dimensiones (como suele ser necesario para una medida de asimetría), por ejemplo, mediante la IQR, de la siguiente forma aquí (poniendo $u=0.25$ ).
La medida más común es, por supuesto asimetría del tercer momento .
No hay ninguna razón para que estas tres medidas sean necesariamente coherentes. Cualquiera de ellas podría ser diferente de las otras dos.
Lo que consideramos "asimetría" es un concepto algo resbaladizo y mal definido. Véase aquí para seguir debatiendo.
Si miramos tus datos con un qqplot normal:
[La línea marcada ahí se basa sólo en los 6 primeros puntos, porque quiero discutir la desviación de los dos últimos del patrón ahí].
Vemos que los 6 puntos más pequeños se encuentran casi perfectamente sobre la línea.
Entonces, el séptimo punto está por debajo de la línea (más cerca del centro relativamente que el segundo punto correspondiente desde el extremo izquierdo), mientras que el octavo punto está muy por encima.
El 7º punto sugiere una ligera inclinación a la izquierda, el último, una inclinación más fuerte a la derecha. Si se ignora cualquiera de los dos puntos, la impresión de asimetría queda totalmente determinada por el otro.
Si yo tenía para decir que es una cosa o la otra, lo llamaría "desviación a la derecha", pero también señalaría que la impresión se debe enteramente al efecto de ese punto tan grande. Sin él, no hay nada que permita afirmar que se trata de una desviación a la derecha. (Por otra parte, sin el séptimo punto, está claro que no es oblicuo a la izquierda).
Debemos tener mucho cuidado cuando nuestra impresión está totalmente determinada por puntos individuales, y puede darse la vuelta eliminando un punto. No es una buena base.
Parto de la premisa de que lo que hace que un valor atípico sea "atípico" es el modelo (lo que es un valor atípico con respecto a un modelo puede ser bastante típico según otro modelo).
Creo que una observación en el percentil 0,01 superior (1/10000) de una normal (3,72 sds por encima de la media) es igual de atípica para el modelo normal que una observación en el percentil 0,01 superior de una distribución exponencial lo es para el modelo exponencial. (Si transformamos una distribución por su propia integral de probabilidad, cada una irá al mismo uniforme)
Para ver el problema de aplicar la regla del diagrama de caja incluso a una distribución moderadamente sesgada a la derecha, simule muestras grandes de una distribución exponencial.
Por ejemplo, si simulamos muestras de tamaño 100 de una normal, la media será inferior a 1 valor atípico por muestra. Si lo hacemos con una exponencial, la media es de unos 5. Pero no hay ninguna base real para afirmar que una mayor proporción de valores exponenciales son "atípicos", a menos que lo hagamos por comparación con (digamos) un modelo normal. En situaciones particulares podemos tener razones específicas para tener una regla de valores atípicos de alguna forma particular, pero no hay una regla general, lo que nos deja con principios generales como con el que empecé en esta subsección - para tratar cada modelo / distribución en sus propias luces (si un valor no es inusual con respecto a un modelo, ¿por qué llamarlo un valor atípico en esa situación?)
Volviendo a la pregunta del título :
Aunque se trata de un instrumento bastante rudimentario (por eso me fijé en el gráfico QQ), hay varios indicios de asimetría en un gráfico de caja: si hay al menos un punto marcado como atípico, hay potencialmente (al menos) tres:
En esta muestra (n=100), los puntos exteriores (verdes) marcan los extremos, y con la mediana sugieren asimetría a la izquierda. A continuación, los cercos (azules) sugieren (cuando se combinan con la mediana) asimetría a la derecha. Luego, las bisagras (cuartiles, marrón), sugieren asimetría a la izquierda cuando se combinan con la mediana.
Como vemos, no tienen por qué ser coherentes. En cuál te centrarías depende de la situación en la que te encuentres (y posiblemente de tus preferencias).
Sin embargo, una advertencia en lo crudo el boxplot es. El ejemplo del final aquí -- que incluye una descripción de cómo generar los datos -- da cuatro distribuciones bastante diferentes con el mismo boxplot:
Como se puede ver, hay una distribución bastante sesgada, con todos los indicadores de asimetría mencionados anteriormente mostrando una simetría perfecta.
--
Tomemos esto desde el punto de vista de "¿qué respuesta esperaba tu profesor, dado que se trata de un boxplot, que marca un punto como valor atípico?".
Nos queda responder primero "¿esperan que evalúes la asimetría excluyendo ese punto, o con él en la muestra?". Algunos lo excluirían y evaluarían la asimetría a partir de lo que queda, como hizo jsk en otra respuesta. Aunque he cuestionado algunos aspectos de este enfoque, no puedo decir que sea erróneo, depende de la situación. Algunos lo incluirían (entre otras cosas porque excluir el 12,5% de la muestra debido a una regla derivada de la normalidad parece un gran paso*).
* Imaginemos una distribución de población simétrica excepto por la cola extrema derecha (he construido una para responder a esta pregunta, normal pero con la cola extrema derecha de Pareto, pero no la he presentado en mi respuesta). Si extraigo muestras de tamaño 8, a menudo 7 de las observaciones proceden de la parte que parece normal y una procede de la cola superior. Si excluimos los puntos marcados como boxplot-outliers en ese caso, ¡estamos excluyendo el punto que nos está diciendo que en realidad está sesgado! Cuando lo hacemos, la distribución truncada que queda en esa situación es sesgada a la izquierda, y nuestra conclusión sería la opuesta a la correcta.