23 votos

Cómo saber si mi distribución de datos es simétrica

Sé que si la mediana y la media son aproximadamente iguales, esto significa que hay una distribución simétrica, pero en este caso en particular no estoy seguro. La media y la mediana están bastante cerca (sólo 0,487m/galón de diferencia) lo que me llevaría a decir que hay una distribución simétrica pero mirando el diagrama de caja, parece que está ligeramente sesgada de forma positiva (la mediana está más cerca de Q1 que de Q3 como confirman los valores).

Estoy usando Minitab si tiene algún consejo específico para esta pieza de software.

0 votos

Comentario ortogonal sobre un detalle: ¿qué unidades son m/gall? Parecen metros por galón, y me intriga.

0 votos

El hecho de que los gráficos de caja no suelan mostrar las medias es una grave limitación.

0 votos

¿Cuál es la desviación estándar de sus datos? Si el valor de 0,487m/gall es mucho menor que su desviación estándar, entonces probablemente tiene razones para creer que su distribución puede ser simétrica. Si ese valor es mucho mayor que su desviación estándar (o MAD o cualquier otra medida de desviación que considere), probablemente examinar la simetría de la distribución sea una pérdida de tiempo.

29voto

AdamSane Puntos 1825

Sin duda te han dicho lo contrario, pero significa $=$ La mediana sí no implican simetría.

Existe una medida de asimetría basada en la media menos la mediana (la segunda asimetría de Pearson), pero puede ser 0 cuando la distribución no es simétrica (como cualquiera de las medidas de asimetría comunes).

Del mismo modo, la relación entre la media y la mediana no implica necesariamente una relación similar entre la mediana ( $(Q_1+Q_3)/2$ ) y la mediana. Pueden sugerir asimetrías opuestas, o una puede ser igual a la mediana mientras que la otra no.

Una forma de investigar la simetría es a través de un gráfico de simetría *.

Si $Y_{(1)}, Y_{(2)}, ..., Y_{(n)}$ son las observaciones ordenadas de menor a mayor (las estadísticas de orden), y $M$ es la mediana, entonces un gráfico de simetría traza $Y_{(n)}-M$ vs $M-Y_{(1)}$ , $Y_{(n-1)}-M$ vs $M-Y_{(2)}$ ... y así sucesivamente.

* Minitab puede hacerlo . De hecho, planteo este gráfico como una posibilidad porque los he visto hacer en Minitab.

He aquí cuatro ejemplos:

$\hspace{6cm} \textbf{Symmetry plots}$
Symmetry plots of above type for samples from four distributions

(Las distribuciones reales fueron (de izquierda a derecha, primero la fila superior) - Laplace, Gamma(forma=0,8), beta(2,2) y beta(5,2). El código es de Ross Ihaka, de aquí )

En los ejemplos simétricos de cola pesada, suele ocurrir que los puntos más extremos pueden estar muy alejados de la recta; se prestaría menos atención a la distancia a la recta de uno o dos puntos a medida que se acerca a la parte superior derecha de la figura.

Hay, por supuesto, otros gráficos (mencioné el gráfico de simetría no por un sentido particular de defensa de ese, sino porque sabía que ya estaba implementado en Minitab). Así que vamos a explorar algunos otros.

Aquí están los correspondientes gráficos asimétricos que Nick Cox sugirió en los comentarios:

$\hspace{6cm} \textbf{Skewness plots}$
Skewness plots as suggested by Nick Cox in comments

En estos gráficos, una tendencia al alza indicaría una cola derecha típicamente más pesada que la izquierda y una tendencia a la baja indicaría una cola izquierda típicamente más pesada que la derecha, mientras que la simetría sería sugerida por un gráfico relativamente plano (aunque quizás bastante ruidoso).

Nick sugiere que esta trama es mejor (concretamente "más directa"). Me inclino a estar de acuerdo; la interpretación del gráfico parece, en consecuencia, un poco más fácil, aunque la información de los gráficos correspondientes suele ser bastante similar (después de restar la pendiente unitaria en el primer conjunto, se obtiene algo muy parecido al segundo conjunto).

Por supuesto, ninguna de estas cosas nos dirá que la distribución de la que se han extraído los datos es realmente simétrica; obtenemos una indicación de lo cercana a la simetría que es la muestra y, por tanto, hasta ese punto podemos juzgar si los datos son razonablemente consistentes con la extracción de una población casi simétrica].

0 votos

Esto es mucho más útil en comparación con las cosas subjetivas. Esto respondió totalmente a mi pregunta, mi problema está resuelto.

3 votos

@user72943 Si estás totalmente satisfecho con ella, no olvides volver y seleccionar la respuesta de Glen_b. Es posible que quieras esperar un poco para ver si alguien presenta una respuesta mejor, pero Glen_b recibirá más crédito si aceptas la respuesta.

3 votos

+1, pero una objeción. Encuentro un gráfico de (cuantil superior $+$ cuantil inferior)/2 frente a (cuantil superior $-$ cuantil inferior) más directo que el gráfico de simetría aquí. Para el cuantil lea el estadístico de orden si así lo desea. La situación de referencia es una distribución simétrica en la que los promedios de los cuantiles emparejados son todos iguales a la mediana, por lo que una distribución simétrica se traza como una línea recta. Tanto la asimetría leve como la marcada son fáciles de detectar, al igual que (por ejemplo) la simetría aproximada en el centro y las excepciones marcadas en una o ambas colas.

6voto

Aksakal Puntos 11351

Lo más sencillo es calcular la muestra asimetría . Hay una función en Minitab para eso. Las distribuciones simétricas tendrán cero asimetría. La asimetría cero no significa necesariamente que sea simétrica, pero en la mayoría de los casos prácticos lo sería.

Como señaló @NickCox, hay más de una definición de asimetría. Yo uso la que es compatible con Excel pero puede utilizar cualquier otro.

2 votos

Creo que hay que aclarar esto. En particular, no existe "la asimetría". Hay muchas medidas e incluso las menos comunes suelen ser tan útiles o interesantes como las comunes (por ejemplo, los momentos L). Los que tienen la tentación de considerar el tercer momento estandarizado como el (y también es la mía por defecto) debería tener en cuenta que para Karl Pearson, y para muchos otros autores hasta bien entrado el siglo XX, la asimetría se medía con mayor frecuencia en relación con la moda.

0 votos

Cualquier coeficiente de asimetría, además de carecer de mucho poder para detectar asimetrías (como usted señala correctamente), también sufre de ser (extremadamente) no robusto, porque se basa en el tercer momento de la muestra. Además, dado que la simetría puede ser violada de muchas (e interesantes) maneras, una única caracterización numérica de la simetría es un pobre sustituto de los diagnósticos gráficos más ricos descritos en la literatura del análisis exploratorio de datos.

1voto

soakley Puntos 1968

Centra tus datos alrededor de cero restando la media de la muestra. Ahora divide tus datos en dos partes, la negativa y la positiva. Toma el valor absoluto de los puntos de datos negativos. Ahora haz una prueba de Kolmogorov-Smirnov de dos muestras comparando las dos particiones entre sí. Haz tu conclusión basándote en el valor p.

0voto

Manish Basantani Puntos 4347

Pon tus observaciones ordenadas en valores crecientes en una columna, y luego ponlas ordenadas en valores decrecientes en otra columna.
A continuación, calcula el coeficiente de correlación (llámalo Rm) entre estas dos columnas.
Calcular el índice quiral: CHI=(1+Rm)/2.
CHI toma valores en el intervalo [0..1].
El CHI es nulo SI y SÓLO SI su muestra está distribuida simétricamente.
No es necesario el tercer momento.
Teoría:
http://petitjeanmichel.free.fr/itoweb.petitjean.skewness.html
http://petitjeanmichel.free.fr/itoweb.petitjean.html
(la mayoría de los artículos citados en estas dos páginas se pueden descargar allí en pdf)
Espero que sea de ayuda, incluso últimamente.

0 votos

¿La correlación, Rm, no sería necesariamente negativa? No veo cómo CHI podría ser 1 a menos que Rm fuera 1, pero como col1 está ordenada de forma creciente y col2 está ordenada de forma decreciente, RM <=0, lo que significa que CHI tomaría valores en [0, .5]. ¿Me estoy perdiendo algo?

0 votos

Sí Rm no puede ser positivo y CHI no puede superar 1/2 para distribuciones de variables aleatorias que toman valores en la recta real. De hecho, el límite superior 1 proviene de la teoría general que introduce el índice quiral. Tiene sentido para distribuciones de variables aleatorias que toman valores en un espacio más general. Esta teoría está fuera del alcance de la presente discusión, pero se presenta en las dos páginas web que he mencionado anteriormente.

0 votos

Por favor, registre y/o fusione sus cuentas (puede encontrar información sobre cómo hacerlo en el Mi cuenta sección de nuestro centro de ayuda ), entonces podrá editar y comentar su propia pregunta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X