4 votos

¿Está tomando la mediana de un conjunto de porcentajes estadísticamente sonidos?

Tengo varios conjuntos de datos, por desgracia, los datos vienen a mí en un "resumen" de este formulario. Mi trabajo es consolidar las diversas fuentes de datos en un resumen general. Actualmente estoy usando la mediana para resumir los datos, pero no sé si esto es estadísticamente sonido. He aquí una descripción de mi problema:

Hay $N_P$ muestras, cada uno con diferentes tamaños de muestra, pero todo desde una única población. Ni el tamaño de la muestra o el estándar de variación son conocidos. Cada muestra puede ser dividido en $N_Q$ distintos grupos (o cualidades). A partir de cada muestra, el único dato que se conoce es qué por ciento de la muestra se enmarca dentro de un grupo (o categoría). Por ejemplo, la población $A$ contiene, $x\%$ de $a$, $y\%$ de $b$$z\%$$c$.

Las diferentes muestras no son disjuntos, por lo que un solo elemento puede estar en varias de las muestras; pero no sé cuánto de superposición que existe. Hay 5-8 diferentes muestras con 5-7 categorías. Un ejemplo (más pequeño) de la tabla es la siguiente.

            cat. a    cat. b    cat. c    
sample A    47.34%    30.05%    11.92%
sample B    41.60%    29.90%    11.90%
sample c    47.74%    29.67%    12.69%
--------    ------    ------    ------
median      47.34%    29.90%    11.92%

Ahora es estadísticamente sonido para crear este "mediana" en resumen, lo que lleva a cada grupo a partir de las diferentes muestras y encuentra la mediana? Tal vez yo debería ser el uso de la media? El problema que estoy viendo es la "mediana de la muestra" generalmente sumas a menos de 100%, aunque los porcentajes de cada muestra se suma el 100%. Debe este asunto?

Sample sizes: 100k - 100m
Population size: ~1 billion

2voto

Eric Pohl Puntos 1258

Lo que están haciendo no tiene sentido si tu objetivo es clasificar qué proporción de la totalidad de la población (muestra Un + muestra + B + C del ejemplo) está en la categoría a, b, y c de. Considere la siguiente tabla de contingencia:

   a  b  c             a    b    c
A  8; 1; 1         A  .8;  .1;  .1
B  7; 2; 1         B  .7;  .2;  .1
C  1; 13; 16       C  .03; .43; .53

Entonces, por ejemplo, la mediana de la categoría, una de las probabilidades es de 0,7 y la media es de 0,51, pero sólo 16/50 = 0.32 de la totalidad de las observaciones están en la columna a. Asimismo, la mediana de la categoría c de probabilidades sería 0.1, pero sólo el 0,36 de las observaciones están en la columna c. ¿La "mediana resumen de" proponer decirte algo importante en una situación como esta? A menos que usted tiene el marginal cuenta de cualquiera de las muestras o de las categorías, o usted está dispuesto a hacer algunas suposiciones acerca de ellos, creo que no hay mucho que usted puede hacer en este caso.

¿Tienes algún metas específicas en mente? Además, ¿en cuántas categorías y muestras lo que tienes?

Edit: la muestra/población fraseo es un poco confuso. Es mejor decir que "tienen 3 muestras, cada una de las cuales se sub-divide en 3 categorías a,b, y c de." La frase "muestra de la población" es preocupante, como es su referencia a dos diferentes "poblaciones".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X