6 votos

Extensión de la Mediana a grande de datos entero de las distribuciones?

Yo soy el análisis de muestras grandes de valores enteros. Porque vienen de un no-distribución simétrica (alta asimetría positiva), yo prefiero utilizar la mediana para la caracterización de la tendencia central, no la media. Sin embargo, debido a la naturaleza de los datos, muchos de los valores que son iguales a la mediana, lo que significa que la mediana es DEMASIADO estable e insensible a los cambios en los datos.

Como un juguete de ejemplo, vamos a Un = [1 1 1 2 2 2 3] y B = [1 2 2 2 3 3 3].

Tanto la mediana(A) y la mediana (B) 2; sin embargo, intuitivamente, yo diría que la mediana(A) es 'baja 2' y la mediana(B) es "alto 2'.

En una visión más realista ejemplo, tendríamos millones de valores de 1, par de millones de 2 y un largo disminución de la cola de, digamos, un valor máximo de 1000.

Me pregunto, ¿hay alguna extensiones de la definición de la mediana que tomar en cuenta esta diferencia?

6voto

Nick Cox Puntos 22819

El tapizado es decir, desde donde se están iniciando, una generalización de la mediana. Si usted trim (en el sentido de ignorar antes que caer) 3 valores en cada cola de un ordenado muestra de 7 a continuación, obtener la mediana; si recorta los valores 0, entonces se obtiene de la media. Para muestras pequeñas, pensar en términos de número de tapizados es natural. Aquí es un Programa basado en el cálculo con los "datos" mediante la publicación de código con Cox (2013), pero el resultado debe ser bastante transparentes para los usuarios de otros programas de software:

set obs 7
mat A = (1, 1, 1, 2, 2, 2, 3) 
mat B = (1, 2, 2, 2, 3, 3, 3)
gen A = A[1, _n]
gen B = B[1, _n]

trimmean A, number(0/3)

+---------------------------+
| number   #   trimmed mean |
|---------------------------|
|      0   7       1.714286 |
|      1   5            1.6 |
|      2   3       1.666667 |
|      3   1              2 |
+---------------------------+

trimmean B, number(0/3)

+---------------------------+
| number   #   trimmed mean |
|---------------------------|
|      0   7       2.285714 |
|      1   5            2.4 |
|      2   3       2.333333 |
|      3   1              2 |
+---------------------------+

Como común, los resultados se muestran a más posiciones decimales que serán necesarios.

Para muestras más grandes, es más natural, y ciertamente convencional, a pensar en términos de la fracción o porcentaje de tapizados. El 25% tapizados significa que se le ha dado diversos nombres, siendo los más comunes "midmean". (Aquellos que están familiarizados con diagramas de caja puede pensar en él como la media de los valores que caen dentro de la caja.)

Las ventajas de tapizados medios incluyen

  1. La facilidad de comprensión y de cálculo. Tapizados de los medios usados en el juicio de los deportes como una forma de descuento o desalentar el sesgo en la votación, por lo que incluso puede ser familiar para los usuarios de las estadísticas de fuera del campo.

  2. Claro enlaces estándar de ideas, la media y la mediana.

  3. Flexibilidad en la elección de esa mezcla de resistencia a la salvaje valores y uso de la información en el resto de valores que es un buen trade-off en un proyecto.

Las desventajas incluyen el

  1. La flexibilidad es otro nombre para la arbitrariedad. No es fácil ver cuál es la mejor de las extensiones de bivariante o multivariante de los casos sería.

  2. Los valores se incluyen o no, al menos en el más simple sabor de tapizados significa, que no puede ser suficientemente sutil.

  3. Tapizados en otros medios que la limitación de los casos de la media y la mediana de perder muchas de las atractivas propiedades de cualquiera de ellos, incluyendo el equivariance de la mediana y monótona de las transformaciones de manifiesto por @whuber.

Cox (2013) es una revisión tutorial haciendo hincapié en la historia de las ideas y gráficos asociados. (Se asoma a una breve mención de Jules Verne.)

Cox, N. J. 2013. Hablando de Stata: Cortar al gusto. Stata Journal 13: 640-666. http://www.stata-journal.com/article.html?article=st0313

2voto

Aksakal Puntos 11351

No estoy de acuerdo con su caracterización de B mediana como "parte superior de 2", ya que su media es 16/7=2.29. Usted se refirió al hecho de que no le gustaba decir que la distribución está sesgada, por lo que la caracterización de la mediana como "parte superior de 2" sería incompatible con la media de la muestra. Media de la muestra de Una de 1,71. Por lo tanto, la tendencia central es probablemente alta 1 y bajo de 2 para las muestras a y B.

Me propongo utilizar una media ponderada de la media y la mediana:

$m=w*mean+(1-w)median$.

En el caso de la mediana = 2, y a y B son los medios 12/7 y 16/7. Por lo tanto, si se utiliza $w=1/3$, entonces m=1.9 y 2.1 sería consistente con la propuesta anteriormente alta 1 y baja 2 caracterización. Usted puede jugar con los pesos w para obtener una mejor medida para su estudio. Alto $w$ hará que se vea más como media, y baja $w$ hará que sea más como una mediana.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X